Unicode
Unicode ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller weltweit bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, die Verwendung unterschiedlicher und inkompatibler Zeichencodierungen zu beseitigen. Unicode wird ständig um Zeichen weiterer Schriftsysteme ergänzt.
Jedes im Unicode-Standard codierte elementare Zeichen ist einer Codepoint-Nummer im Bereich von 0 bus 10FFFFhex. Die Codepoints werden thematisch in Codeblöcke gruppiert. Jeweils 65536 Codepoints mit den Endziffern 0000 bis FFFFhex bilden darüber hinaus eine Ebene.
Die ersten Unicodeversionen sahen nur Codepointnummern bis FFFFhex vor. Nachdem eine Flut ostasiatischer Schriftzeichen diesen Umfang gesprengt hat, wurde der Zeichenvorrat ab Unicode 3.1 versiebzehnfacht und es gibt nun einen möglichen Zeichenvorrat von 1.112.064 Zeichen (1.114.112 Codepunkte, von denen 2048 als Surrogatzeichen reserviert sind). Die aktuelle Unicode-Version 14.0 verwendet 144.697 davon.
Die Codepoint-Gruppen aus der Zeit bis Unicode 3.0 bilden die Ebene 0, die so genannte Basic Multilingual Plane BMP. Eine Grafik aus der Wikipedia zeigt, wie die darin befindlichen Codeblöcke belegt sind:
Grafische Darstellung der Ebenen von Unicode, Quelle: Wikipedia
In der Ebene 0 konnten nur die häufigsten CJK-Ideogramme (Symbolschriftzeichen der chinesischen, japanischen und koreanischen Schrift) berücksichtigt werden.
Weitere Ebenen sind
- Ebene 01
- Supplementary Multilingual Plane SMP (ergänzende mehrsprachige Ebene mit Schriftzeichen aus den unterschiedlichsten Kulturen)
- Ebene 02
- Supplementary Ideographic Plane SIP (ergänzende ideographische Ebene, enthält nur CJK Ideogramme)
- Ebene 03
- Tertiary Ideographic Plane TIP (dritte ideographische Ebene, bislang nur ca 5000 Zeichen. Beantragt sind darüber hinaus die chinesische Siegelschrift und Orakelknochenschrift)
- Ebenen 04 bis 0D
- Derzeit noch unbelegt
- Ebene 0E
- für Sonderzwecke reserviert
- Ebenen 0F und 10
- Ebenen für private Verwendung. Die Codepunkte dieser Ebenen sind nicht für spezielle Schriftzeichen reserviert und können von Schriftarten individuell belegt werden.
Siehe auch
- Zeichencodierung
- Bytes und Buchstaben
- Unicode in der Praxis
- im Editor
- Meta-Angabe im Dokument
- HTTP-Header
- Emojis und Emoticons
- Darstellung
- zugängliche Emoticons
- Zeichenreferenz
- Benannte Entitäten in HTML
Weblinks
- unicode.org: Offizielle Website des Unicode Consortium (englisch)
- archive.org: Imperia Unicode- und Multi-Language-Howto – Allgemeinverständliche, deutschsprachige Einführung in Unicode
- UniSearcher – Suchen von Unicodes
- Shapecatcher grafische Unicode Zeichensuche (englisch)
- Ermitteln des Zeichennamens und der Codeposition durch Eingabe des Zeichens
- left logic: HTML Entity Lookup findet zueinander ähnliche Zeichen