|
|||||||
|
|
UTF-8Section: Verschiedenes (7)Updated: 14. Februar 2001 Index Return to Main Contents NAMEUTF-8 - eine ASCII-kompatible Unicode-KodierungBESCHREIBUNGDer Unicode-Zeichensatz ist durch 16-Bit-Wörter definiert. Die einfachste Unicode-Kodierung (UCS-2) besteht aus einer Folge von 16-Bit-Zeichen. Solche Zeichenketten können 8-Bit-Bestandteile wie '\0' or '/' enthalten, die eine besondere Bedeutung z.B. in Dateinamen oder Bibliotheksfunktionen besitzen. Außerdem arbeiten die meisten UNIX-Programme mit ASCII-Dateien und können 16-Bit-Wörter nicht ohne größere Änderungen verarbeiten. Darum ist UCS-2 keine geeignete externe Kodierung von Unicode in Dateinamen, Text-Dateien, Environment-Variablen, etc. Das ISO 10646 Universal Character Set (UCS), eine Erweiterung von Unicode, wird sogar durch 31-Bit-Wörter definiert. Die einfache UCS-4-Kodierung (eine Folge von 32-Bit-Wörtern) leidet unter denselben Probleme wie die UCS-2-Kodierung.Die UTF-8-Kodierung von Unicode und UCS hat diese Probleme nicht und sollte deshalb für den Unicode-Zeichensatz unter unixoiden Betriebssystemen verwendet werden. EIGENSCHAFTENDie UTF-8-Kodierung besitzt die folgenden Eigenschaften:
KODIERUNGDie folgenden Byte-Folgen werden benutzt, um ein Zeichen darzustellen. Die zu benutzende Folge hängt vom UCS-Code des Zeichens ab:
Die xxx-Bits müssen durch den Code des Zeichens in Binärdarstellung ersetzt werden. Es wird die jeweils kürzeste Folge benutzt, die den Code des Zeichen darstellen kann. BEISPIELEDas Unicode-Zeichen 0xa9 = 1010 1001 (das Copyright-Zeichen) wird in UTF-8 als
dargestellt und das Zeichen 0x2260 = 0010 0010 0110 0000 (das Ungleich-Symbol) als:
KONFORM ZUISO 10646, Unicode 1.1, XPG4, Plan 9.AUTORMarkus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>Deutsche Übersetzung: Sebastian Rittau <srittau@jroger.in-berlin.de> SIEHE AUCHunicode(7)
Index | ||||||
|
|
|
Home :: Copyright :: Privacy :: Credits :: Get a free Linuxinfor Email Account Document on this page is part of "Linuxinfor Man Pages in HTML Format: man7". See Index Page for more info about Authorship and Copyright. 1999-2008 Linuxinfor.com. No rights reserved. |