Diskussion:Zeichenkodierung

Aus SELFHTML-Wiki
Wechseln zu: Navigation, Suche

Hinweis

Eine Diskussionsseite dient dazu, Änderungen am Artikel zu besprechen. Allerdings werden diese Seiten in unserem Wiki erfahrungsgemäß nur von sehr wenigen Leuten besucht.
  • Deshalb sollten Diskussionen über den Artikel zum Thema „Zeichenkodierung“ besser im SELFHTML-Forum geführt werden.
  • Unter https://forum.selfhtml.org/meta/new kannst du einen entsprechenden Beitrag erstellen.
  • Bitte hinterlasse einen entsprechenden Link auf dieser Diskussionsseite, wenn du einen Thread im Forum eröffnet hast.

Kodierung oder Codierung? Welche Schreibweise soll's denn sein, einheitlich oder beliebig gemischt? --dedlfix 10:33, 21. Mär. 2010 (CET)

Ich bin dafür, einheitlich Codierung zu verwenden. --Vinzenz 12:58, 21. Mär. 2010 (CET)

Inhaltsverzeichnis

[Bearbeiten] Grundsatzdiskussion ;-)

Das mag jetzt ein unpopulärer Vorschlag sein, aber um es mal auszusprechen: Sollte man diese Seite nicht ganz rausschmeißen? Ich meine, das ist doch eigentlich das Tolle an den Fortschritten in der Technik: Dass man sich um gewisse Dinge (wie Zeichensätze) einfach nicht mehr groß kümmern muss. SELFHTML ist doch nicht "Das große Techniklexikon", in dem alles haargenau erklärt sein muss, nur weil es vielleicht in früheren Ausgaben von SELFHTML erklärt wurde.

Zu Zeiten früherer Ausgaben von SELFHTML war die Unicode-Unterstützung bei der Software (Browser, Texteditoren etc.) noch ziemlich unausgereift bis gar nicht vorhanden: Klar, da musste man dem Leser diese Sachen beibringen, damit er eine Ahnung hat, was da unter der Haube eigentlich passiert, so dass er im Fehlerfall weiß, was zu tun ist.

Aber heute? Texteditor richtig einstellen, mit UTF-8 speichern und vergessen. Ich will jetzt nicht für meine selbst bearbeiteten Seiten Werbung machen, aber auf der Seite Doku:HTML/Zeichenvorrat und HTML-eigene Zeichen steht doch eigentlich alles, was ein Webentwickler (und an diese wendet sich SELFHTML doch) heutzutage über Zeichensätze wissen muss.

Okay, ich sollte dort noch ergänzen, dass auch der vom Server gesendete HTTP-Header eine Rolle spielt, aber wesentlich mehr muss man doch eigentlich nicht ins Detail gehen, oder?

Ist aber nur mal ein Gedanke - ich habe auch nichts dagegen, wenn diese Seite drin bleibt. ;-) Ach ja, der TODO-Link zu der Thematik, dass auch UTF-8 Nachteile habe, erfordert ein Passwort, daher kann ich dazu jetzt so nichts sagen. --MathiasB 22:37, 21. Mär. 2010 (CET)

Ein klares Dagegen von meiner Seite. Die Anfragen im Forum zeigen noch zur Genüge, dass Wissen um Zeichenproblematik benötigt wird. Mehr noch, neben diesem Grundlagenartikel fehlen mindestens ein paar Artikel, die das Zusammenspiel aller beteiligten Komponenten im Web verdeutlichen. Datenbank vs. Programmiersprache vs. Texteditor vs. Webserver vs. Browser. Gerade da steckt manchmal der Teufel im Detail. Auch nicht uninteressant wäre sicher, wie man von einem vorhandenen Problem zu einer Lösung kommt. Das geht auf keinen Fall für alle Probleme, aber ein paar exemplarische kann man da schon abhandeln. --dedlfix 22:55, 21. Mär. 2010 (CET)
Ah, okay, gibt also in der Praxis doch noch viele Probleme mit Zeichensätzen. Dann stellt sich natürlich die umgekehrte Frage: Sollte die Seite Doku:HTML/Zeichenvorrat und HTML-eigene Zeichen dann noch erhalten bleiben? Wir brauchen ja wohl kaum zwei Seiten über das gleiche Thema, von denen nur eine vollständig ist. Ich wäre also dafür, im Bereich der HTML-Doku nur noch zu schreiben: "Bitte beachten Sie beim Editieren von HTML-Dateien die Hinweise auf der Seite "Zeichenkodierung und geschriebene Sprache", also diese hier. Die einzige Frage wäre dann noch: Was soll mit dem Maskieren von HTML-eigenen Zeichen passieren? Soll das mit auf diese Seite drauf? Oder passt das in der HTML-Anleitung besser? --MathiasB 23:42, 23. Mär. 2010 (CET)
Die Doku:HTML/Zeichenvorrat und HTML-eigene Zeichen (hab die Einleitung grad überarbeitet; danke, dass du mich mit deiner Anwort indirekt darauf hingewiesen hast) kann nicht so sehr in die Tiefe gehen wie der Grundlagen-Artikel. Und das Wissen aus dem Letzteren braucht man für alle Systeme, nicht nur für HTML-Dokumente. Ich habe sogar noch einen Themenschwerpunkt zur Zeichencodierung erstellt, der über die Grundlagen hinaus weitere konkrete Dinge rund ums Thema behandeln soll. Das Maskieren von HTML-Zeichen hat zwar mit Zeichen allgemein, aber nichts mit der Zeichenkodierung zu tun, sondern ist notwendig, um die gleichzeitige Verwendung von bestimmten Zeichen einerseits als Syntax- und andererseits als Datenbestandteil zu regeln. Das gehört also zu den Syntaxregeln von HTML und damit in die HTML-Dokumentation. --dedlfix 09:44, 24. Mär. 2010 (CET)
Nachtrag: Mit der Einsortiererei und Abgrenzung eines Themas ist es oft nicht so einfach, denn je umfangreicher am etwas beschreibt, desto mehr "fischt" man auch in anderen fachlichen Bereichen. Hier sollte man anstreben, eine sinnvolle Aufteilung zu finden. Manchmal muss man jedoch ein Nebenthema kurz anschneiden, weil es zum Verständnis des Eigentlichen notwendig ist und dann kommt es insgesamt gesehen zu teilweisen thematischen Dopplungen. --dedlfix 13:59, 24. Mär. 2010 (CET)
Ich halte den Artikel ebenfalls für erhaltenswert, allerdings nicht in der jetzigen Form. Wie man bei Webdokumenten, Stylesheets usw. die Zeichencodierung einstellt, könnte meiner bescheidenen Meinung nach durchaus in einen eigenen Artikel. Das scheint mir, abgesehen von der klar voneinander abzutrennenden Thematik(Zeichencodierungen verwenden VS. Existierende Zeichencodierungen und deren Funktionsweise), allein deshalb schon sinnvoll, weil die Seite bei Einfügen von weiterem Inhalt ansonsten deutliche Überlänge bekommt. Aufsplittung hin oder her: Warum werden wichtige Begrifflichkeiten ganz am Ende des Artikels geklärt? --Waldi 19:07, 22. Mär. 2010 (CET)
Weil ich sie an den von Sven Rautenberg verfassten Artikel einfach angehängt/ergänzt habe. Ich finde die Position nicht verkehrt, weil ich denke, dass, stünden sie am Anfang, ein Anfänger erst mal mit Fachtermini erschlagen wird, die man auch noch so erläutern muss, dass ein grundlegendes Wissen nicht vorausgesetzt wird. Fachbegriffe sind trockene Theorie. Deswegen finde ich einen einführenden, erläuternden Fließtext am Anfang gut, der anschließend von den „harten“ Fakten abgerundet wird. --dedlfix 19:46, 22. Mär. 2010 (CET)
Reihenfolge im Artikel umstellen. Die Begriffe müssen klargestellt werden, bevor einzelne Kodierungen behandelt werden --Beat 19:55, 22. Mär. 2010 (CET)

[Bearbeiten] Begrifflichkeiten?

Ich finde, man sollte "Begrifflichkeiten" hier herausnehmen und in die Referenzen verschieben. --Asal 21:38, 24. Jun. 2010 (CEST)

Ich finde, dass die Begrifflichkeiten wichtig sind und zum Verständnis beitragen. Deswegen sollten sie bei den Grundlagen und nicht unter ferner liefen erläutert werden. --dedlfix 23:15, 24. Jun. 2010 (CEST)

[Bearbeiten] Zeichenkodierung bei Webdokumenten

Weil es oben ja schon mal angesprochen wurde: Ich bin ebenfalls der Meinung, dass dieser Abschnitt nicht hierher gehört. Ich finde, wir sollten hier die allgemeinen Grundlagen für Zeichenkodierung erklären. Das Erkennen selbiger im Web halte ich für zu speziell. Allerdings weiß ich nicht, wo er besser aufgehoben wäre. Insofern werde ich ihn nicht raustun, wäre aber natürlich nicht böse, wenn ihn jemand an eine passendere Stelle verschieben könnte.

Kann ich nicht beipflichten. Diese Grundlagen sind vertiefende übergreifende Grundlagen und dürfen durchaus konkrete Websprachen tangieren. So halte ich es auch mit anderen Artikeln unter Doku:Grundlagen.
Zumindest habe ich mir bei diesem Inhaltsverzeichnis etwas gedacht.
Du willst nicht alle Hinweise auf HTML in anderen Grundlagenartikeln an eine andere Stelle verschieben?
--Beat 21:20, 28. Jun. 2010 (CEST)

Es gibt noch ein paar andere Dinge zu verbessern: Die Begriffe werden am Schluss erläutert, aber schon am Anfang verwendet =>schlecht. Die ASCII- und ISO-Tabellen sind unvollständig (die Steuerzeichen fehlen) und es wird kein Wort darüber verloren, wie sie zu lesen sind. Einfach so hingeflatscht bringt das einem Neuling wohl nicht sehr viel. Das sind aber Sachen, die ich bei Gelegenheit selber mal korrigieren kann und werde. --Berntie 15:54, 28. Jun. 2010 (CEST)

Oha, ich sehe grade, immerhin steht im Text, wie die Tabellen zu lesen sind. Ist mir entgangen, sorry. --Berntie 16:07, 28. Jun. 2010 (CEST)

Ich habe es getan. Der Webdokumenten-Absatz ist in den Themenschwerpunkt Zeichencodierung abgewandert.

Für die Zeichen-Tabellen gibt es Referenz:Zeichencodierung, da kann ausführlicher auf sie eingegangen werden. Hier sind sie mehr oder weniger zur Verzierung, sag ich mal so. --dedlfix 23:01, 28. Jun. 2010 (CEST)

Danke; gefällt mir so deutlich besser. --Berntie 23:28, 28. Jun. 2010 (CEST)

[Bearbeiten] Unicode U+0080 bis U+00FF

Bevor ich hier den Text nochmals ändere, und es zu einem Editwar kommt: AFAIK ist Unicode 0080 bis 00FF identisch mit ISO-8859-1. Siehe z.B. Wikipedia: Unicode, Kodierungskriterien (Drittletzter Absatz), oder Unicode.org. --Asal 14:22, 30. Jun. 2010 (CEST)

Die Zeichen U+0080..00FF sind die selben wie ISO-8859-1 80..FF. Soweit richtig, darum geht es aber nicht. (Das ist außerdem keine Besonderheit von ISO-8859-1 vs. UTF-8 sondern von ISO-8859-1 vs. Unicode und damit auch aller anderen UTFs.) Beim Dekodieren eines Textes sind die Bytewerte entscheidend und die sind nicht die selben, weswegen nur der ASCII-Teil 00..7F problemlos gelesen werden kann, wenn man einen Text gemäß ISO-8859-1 oder UTF-8 dekodiert, der in der jeweils anderen Kodierung gespeichert wurde. Deswegen ergänzte ich auch noch das "und Bytes" in dem Satz, womit er dann falsch würde, wenn du den kompletten ISO-8859-1-Bereich mit UTF-8 vergleichst. --dedlfix 14:38, 30. Jun. 2010 (CEST)

[Bearbeiten] Westeuropäischer Sprachraum

Hallo Asal,

deine Änderung von

Im westeuropäischen Sprachraum verbreiteten sich insbesondere die Codierungen ISO-8859-1, Windows-1252 oder ISO-8859-15.

zu

Im westeuropäischen Sprachraum verbreiteten sich insbesondere die Codierungen der ISO-8859-Familie (ISO-8859-1 bis -15).

hat nun zu einem nicht richtigen Satz geführt. Nur ISO-8859-1 und -15 sind für Westeuropäisch vorgesehen. Alle anderen sind „Resteuropäisch“ und mit Kyrillisch, Arabisch, Hebräisch und Thai auch afrikanisch und asiatisch. Es ist ja noch nicht einmal so, dass alle ISO-8859-Normen lateinische Buchstaben zur Grundlage hätten.

Diese Einleitung des Absatzes solltest du also auch noch so überarbeiten, dass sie zu den restlichen Änderungen des Absatzes passt. --dedlfix 12:38, 7. Jul. 2010 (CEST)

Ups... ...erledigt! --Asal 23:07, 8. Jul. 2010 (CEST)

[Bearbeiten] Abbildungsbeispiel

Absolut unverständlich, was da wohin abgebildet wird. Dabei wäre gerade dieses Beispiel wichtig! Was ist z,y,u? Wo wird das erklärt?

Wie kommt man genau von U+ nach UTF-8?

Auch mit Bigendian und Littlendian geht es munter durcheinander, ohne dass das besonders gekennzeichnet wird.

--Es gibt nichts Gutes, außer man tut es! (Diskussion) 12:39, 14. Apr. 2014 (CEST)

Meine Werkzeuge
Namensräume

Varianten
Aktionen
Übersicht
Index
Mitmachen
Werkzeuge
Spenden
SELFHTML