Unicode


Unicode является система кодирования, которая присваивает уникальный номер каждого символа, используемого для написания текстов, независимо от языка, платформы и программы используются. Unicode был завершен и обновляется и обнародует Unicode Consortium [1], международный консорциум компаний, которые заинтересованы в совместимости в области компьютерной обработки текстов на разных языках.
Код, присвоенный характер [2] представлены U +, а затем четыре (или шесть) цифр шестнадцатеричное число, указывает он.

Unicode включает в самой первой части, кодирование ISO / IEC 8859-1 [3], но идет гораздо дальше от кодировки символов, используемых практически во всех живых языков и некоторые мертвые языки, математические и химические символы, карты, L ' шрифтом Брайля, и т.д. символов.

В настоящее время стандарт Unicode еще не представлять все символы используются по всему миру. Будучи по-прежнему развивается, стремится охватить все персонажи представлены, обеспечения совместимости и не пересекаются с кодированием символов уже определены, но по-прежнему оставляя точный код поля "не используется", должны быть зарезервированы для себя, чтобы «Внутренние конкретных приложений.

Unicode поддерживает современные стандарты программирования и разметки, как XML, Java, JavaScript, LDAP, CORBA 3.0, а также различных операционных систем.

Код структуры

Unicode был первоначально разработан в 16-битной кодировки (четыре шестнадцатеричные цифры), что дало возможность кодировать 65 536 символов. Оба считаются достаточными для представления символов, используемых во всех письменных языков мира. Теперь вместо Unicode стандарт, который в основном прекрасно соответствие с ISO / IEC 10646, обеспечивает кодирование до 21 бит и поддерживает библиотеку цифровых кодов, которые представляют около одного миллиона символов. Этого достаточно для удовлетворения потребностей кодирования исторических писаниях человечества, на разных языках и используется в различных системах знаков.

На самом деле, лишь небольшая часть этого кода в настоящее время (до 2008 года) назначен. Для разработки кода, на самом деле под 17 "самолеты" ("плоскости", на английском языке), 00 10HEX, каждый из 65 536 позиций (четыре шестнадцатеричные цифры), но только первые три и последние три плана в настоящее время назначены [4], и это первое, также известный как BMP [5], почти достаточно, чтобы охватить все наиболее часто используемые языки.

Конкретно, этот репертуар цифровых кодов сериализуется с использованием различных схем перекодирования, которые позволяют использовать более компактные коды символов, используемых наиболее часто. Предполагается использование шифрования единиц 8 бит (байт), 16-разрядный (слова) и 32-разрядных (двойное слово), описал, соответственно, как UTF-8, UTF-16 и UTF-32.