Unicode

Unicode ist ein Standard für Zeichensätze, der Zeichen aus den verschiedenen Sprachen, Schriftsystemen und Symbolen der Welt nummeriert und definiert.

Indem jedem Zeichen eine Nummer zugewiesen wird, können Programmierer Zeichenkodierungen erstellen, die es Computern ermöglichen, jede Kombination von Sprachen in derselben Datei oder demselben Programm zu speichern, zu verarbeiten und zu übertragen.

Vor Unicode war es schwierig und fehleranfällig, Sprachen im selben Datensatz zu mischen. Zum Beispiel würde ein Zeichensatz japanische Zeichen speichern, und ein anderer das arabische Alphabet. Wenn nicht klar markiert war, welche Teile der Daten in welchem Zeichensatz waren, würden andere Programme und Computer den Text falsch anzeigen oder ihn während der Verarbeitung beschädigen. Wenn Sie jemals Text gesehen haben, bei dem Zeichen wie geschwungene Anführungszeichen („“) durch Kauderwelsch wie £ ersetzt wurden, dann haben Sie dieses Problem gesehen, bekannt als Mojibake.

Die gebräuchlichste Unicode-Zeichenkodierung im Web ist UTF-8. Es existieren andere Kodierungen wie UTF-16 oder das veraltete UCS-2, aber UTF-8 wird empfohlen.

Siehe auch