Unicode

Aus SELFHTML-Wiki
Wechseln zu: Navigation, Suche

Unicode ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller weltweit bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, die Verwendung unterschiedlicher und inkompatibler Zeichencodierungen zu beseitigen. Unicode wird ständig um Zeichen weiterer Schriftsysteme ergänzt.

Jedes im Unicode-Standard codierte elementare Zeichen ist einer Codepoint-Nummer im Bereich von 0 bus 10FFFFhex. Die Codepoints werden thematisch in Codeblöcke gruppiert. Jeweils 65536 Codepoints mit den Endziffern 0000 bis FFFFhex bilden darüber hinaus eine Ebene.

Die ersten Unicodeversionen sahen nur Codepointnummern bis FFFFhex vor. Nachdem eine Flut ostasiatischer Schriftzeichen diesen Umfang gesprengt hat, wurde der Zeichenvorrat ab Unicode 3.1 versiebzehnfacht und es gibt nun einen möglichen Zeichenvorrat von 1.112.064 Zeichen (1.114.112 Codepunkte, von denen 2048 als Surrogatzeichen reserviert sind). Die aktuelle Unicode-Version 14.0 verwendet 144.697 davon.

Die Codepoint-Gruppen aus der Zeit bis Unicode 3.0 bilden die Ebene 0, die so genannte Basic Multilingual Plane BMP. Eine Grafik aus der Wikipedia zeigt, wie die darin befindlichen Codeblöcke belegt sind:

Grafische Darstellung der Ebenen von Unicode

Grafische Darstellung der Ebenen von Unicode, Quelle: Wikipedia

In der Ebene 0 konnten nur die häufigsten CJK-Ideogramme (Symbolschriftzeichen der chinesischen, japanischen und koreanischen Schrift) berücksichtigt werden.

Weitere Ebenen sind

Ebene 01 
Supplementary Multilingual Plane SMP (ergänzende mehrsprachige Ebene mit Schriftzeichen aus den unterschiedlichsten Kulturen)
Ebene 02 
Supplementary Ideographic Plane SIP (ergänzende ideographische Ebene, enthält nur CJK Ideogramme)
Ebene 03 
Tertiary Ideographic Plane TIP (dritte ideographische Ebene, bislang nur ca 5000 Zeichen. Beantragt sind darüber hinaus die chinesische Siegelschrift und Orakelknochenschrift)
Ebenen 04 bis 0D 
Derzeit noch unbelegt
Ebene 0E 
für Sonderzwecke reserviert
Ebenen 0F und 10
Ebenen für private Verwendung. Die Codepunkte dieser Ebenen sind nicht für spezielle Schriftzeichen reserviert und können von Schriftarten individuell belegt werden.

Siehe auch

Weblinks