|
|||||||
|
|
UTF-8Section: Linux Programmer's Manual (7)Updated: 26 novembre 1995 Index Return to Main Contents NOMEUTF-8 - una codifica Unicode multi-byte ASCII-compatibileDESCRIZIONEL'insieme di caratteri Unicode occupa uno spazio a 16 bit. La codifica più naturale di Unicode (nota come UCS-2) consta di sequenze di parole a 16 bit. Queste stringhe possono contenere byte come '\0' o '/', con il loro significato speciale per i nomi di file e per i parametri di altre funzioni della libreria C, come parte di un carattere a 16 bit. Inoltre, la maggioranza dei programmi UNIX si aspetta nomi di file in ASCII e, senza grosse modifiche, non saprebbe leggere parole a 16 bit. Per queste ragioni, l' UCS-2 non è una codifica esterna di Unicode adatta a nomi di file, file di testo, variabili ambientali, ecc. L' Insieme universale di caratteri ISO 10646 (Universal Character Set), un'estensione di Unicode, occupa addirittura uno spazio a 31 bit, e la sua codifica naturale, UCS-4 (una sequenza di parole a 32 bit), soffre degli stessi problemi.La codifica UTF-8 di Unicode e UCS evita questi problemi, ed è il modo migliore per implementare Unicode in un sistema operativo Unix-esco. PROPRIETÀLa codifica UTF-8 possiede queste ottime proprietà:
CODIFICALe seguenti sequenze di byte vengono usate per rappresentare un carattere. La sequenza da usarsi dipende dal numero del codice UCS del carattere:
Le configurazioni di bit xxx sono riempite coi bit del numero del codice carattere rappresentato in binario. Viene usata solo la più breve delle sequenze multi-byte che possono rappresentare il numero del codice. ESEMPIIl carattere Unicode 0xa9 = 1010 1001 (il simbolo di copyright ©) si codifica in UTF-8 come
e il carattere 0x2260 = 0010 0010 0110 0000 (il simbolo «non uguale») si codifica come:
STANDARDISO 10646, Unicode 1.1, XPG4, Plan 9.AUTOREMarkus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>VEDERE ANCHEunicode(7)
Index | ||||||
|
|
|
Home :: Copyright :: Privacy :: Credits :: Get a free Linuxinfor Email Account Document on this page is part of "Linuxinfor Man Pages in HTML Format: man7". See Index Page for more info about Authorship and Copyright. 1999-2008 Linuxinfor.com. No rights reserved. |