BOM
Das Byte Order Mark, BOM definiert die Byte-Reihenfolge in (Mehrbytes)-Unicode-Zeichenketten und sichert damit letztlich die korrekte Decodierung des Dokuments. Technisch handelt es sich um ein nullbreites Leerzeichen ohne Umbruchmöglichkeit (zero width no-break space, U+FEFF) am Beginn eines Datenstroms, also als erstes Zeichen in einem Dokument.
Da es bei UTF-8 nur eine Byte-Reihenfolge gibt, wird es hier nicht benötigt. Es erscheint in Nicht-UTF-8-Umgebungen meist als 
. Diese Zeichenfolge am Anfang einer Datei kann also als Indiz auf das Vorliegen der UTF-8-Codierung gedeutet werden. Bei Scriptsprachen oder dem Einlesen von Dateien kann das BOM zu Problemen führen, da diese Zeichen nicht zum eigentlichen Inhalt gehören. In solchen Fällen muss das BOM ebenfalls weggelassen werden.
Weblinks
- W3C: Das BOM (byte-order mark) in HTML
- Wikipedia: Byte Order Mark
- Wikipedia: Byte-Reihenfolge