Unicode


Unicode ist ein Codierungssystem, die eine eindeutige Nummer zu jedem Charakter für das Schreiben von Texten verwendet werden, unabhängig von Sprache, Plattform und Programm verwendet zuweist. Unicode ist abgeschlossen und wird ständig aktualisiert und vom Unicode-Konsortium veröffentlicht [1], ein internationales Konsortium von Unternehmen in der Interoperabilität im Computer Verarbeitung von Texten in verschiedenen Sprachen interessiert.
Der Code zugewiesen dem Charakter [2] ist mit U +, durch vier (oder sechs) stellige Hexadezimalzahl, der sie identifiziert gefolgt vertreten.

Unicode enthält den ersten Teil an, die Codierung ISO / IEC 8859-1 [3], sondern geht weit darüber hinaus durch die Codierung von Zeichen in fast allen Sprachen Wohn-und einigen toten Sprachen verwendet werden, sowie der mathematischen und chemischen Symbolen, Karten, l ' Braille, etc. Zeichen.

Derzeit unterstützt die Unicode-Standard noch nicht alle Zeichen repräsentieren weltweit im Einsatz. Sein noch in der Entwicklung, zielt darauf ab, decken alle Zeichen dargestellt, die Kompatibilität und nicht mit der Codierung der Zeichen bereits definiert überlappen, aber immer noch verlassen die genauen Feldfunktionen "nicht verwendet", um für das Selbstverständnis reserviert werden 'Interne bestimmte Anwendungen.

Der Unicode wird von modernen Standards der Programmierungs-und Markup wie XML, Java, JavaScript, LDAP, CORBA 3.0, und verschiedene Betriebssysteme unterstützt.

Code-Struktur

Unicode wurde ursprünglich als 16-Bit-Kodierung (vier hexadezimalen Stellen), die die Möglichkeit zu 65.536 Zeichen codieren gab konzipiert. Beide sind vermutlich ausreichen, um die Zeichen in allen Schriftsprachen der Welt verwendet zu vertreten. Anstatt nun den Unicode-Standard, der im Grunde perfekt mit ISO / IEC 10646 ausgerichtet ist, bietet eine Codierung bis zu 21 Bit und unterstützt eine Bibliothek von numerischen Codes, die etwa eine Million Zeichen darstellen. Das ist genug, um die Bedürfnisse der Codierung der historischen Schriften der Menschheit, in verschiedenen Sprachen und in verschiedenen Systemen von Zeichen zu decken.

Tatsächlich ist nur ein kleiner Teil des Codes vorhanden (bis 2008) zugeordnet ist. Für die Entwicklung des Codes sind in der Tat unter 17 "Ebenen" ("Ebenen", in englischer Sprache), 00 bis 10hex mit jeweils 65.536 Positionen (vier hexadezimalen Stellen), aber nur die ersten drei und letzten drei Pläne sind nun zugeordnet [4], und von diesen die erste, die auch als BMP bekannt [5], ist fast genug, um alle häufig verwendeten Sprachen abdecken.

Konkret wird das Repertoire von numerischen Codes serialisiert verschiedenen Umcodierung Systeme, die die Verwendung von kompakter Codes für Zeichen am häufigsten verwendete ermöglichen. Es ist geplant, den Einsatz von Verschlüsselungstechnologien Einheiten von 8 Bit (Byte), 16-Bit (Wort) und 32-Bit (Doppelwort), beschrieben bzw. als UTF-8, UTF-16 und UTF-32.