Unicode


Unicode är ett kodsystem som tilldelar ett unikt nummer för varje tecken som används för att skriva texter, oberoende av språk, plattform och program som används. Unicode har avslutats och uppdateras och offentliggöras av Unicode Consortium [1], ett internationellt konsortium av företag som är intresserade av driftskompatibiliteten i databehandling av texter på olika språk.
Den kod som tilldelats till karaktären [2] representeras med U +, följt av fyra (eller sex) siffrigt hexadecimalt tal som identifierar den.

Unicode innehåller den allra första delen, kodningen ISO / IEC 8859-1 [3], men går mycket längre genom kodning tecken som används i nästan alla språk levande och vissa döda språk och matematiska och kemiska symboler, kartor, L ' punktskrift etc. tecken.

I dagsläget av Unicode-standarden ännu inte representerar alla tecken som används över hela världen. Att fortfarande utvecklas, syftar till att omfatta alla tecken representerade säkerställa kompatibilitet och inte överlappar med kodningen av tecken redan definierade, men ändå lämnar exakta fältkoderna "inte används", som skall reserveras för det själv att interna särskilda tillämpningar.

Unicode stöds av modern standard för programmering och markup som XML, Java, JavaScript, LDAP, CORBA 3,0, och olika operativsystem.

Kodstruktur

Unicode var ursprungligen utformad som en 16-bitars kodning (fyra hexadecimala siffror) som gav möjlighet att koda 65,536 tecken. Båda tros vara tillräckliga för att representera de tecken som används i alla skrivna språk i världen. Nu i stället för Unicode-standarden, som i princip är perfekt i linje med ISO / IEC 10646, ger en kodning upp till 21 bitar och stöder ett bibliotek med numeriska koder som representerar cirka en miljon tecken. Detta är tillräckligt för att täcka behoven för kodning av de historiska skrifter mänskligheten, på olika språk och används i olika system av tecken.

I själva verket är det bara en liten del av denna kod för närvarande (till 2008) tilldelats. För utvecklingen av koder är i själva verket under 17 "plan" ("plan", på engelska), 00 till 10hex med vardera 65.536 positioner (fyra hexadecimala siffror), men endast de första tre och sista tre planer tilldelas nu [4], och av dessa den första, även känd som BMP [5], är nästan tillräckligt för att täcka alla de mest använda språken.

Konkret är denna repertoar av sifferkoder serialiseras med olika omkodning system, som tillåter användningen av mer kompakta koder för tecken som används oftast. Det är tänkt att använda kryptering enheter 8 bitar (byte), 16-bitars (ord) och 32-bitars (dubbla ord), som beskrivs respektive som UTF-8, UTF-16 och UTF-32.