UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.[1]
UTF-8 hat sich als De-facto-Standard-Zeichenkodierung des Internet und damit verbundener Dokumenttypen etabliert. Im April 2023 verwendeten 97,9 % aller Websites UTF-8[2] und 98,8 % der Top 1000.[3]
Auch bei der in Webbrowsern angewendeten Auszeichnungssprache HTML hat sich UTF-8 zur Darstellung sprachspezifischer Zeichen durchgesetzt (über 97 % Anteil im Oktober 2021) und ersetzt dabei die vorher genutzten HTML-Entitäten.[4]
Die Internet Engineering Task Force verlangt von allen neuen Internet-Kommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstützten Kodierungen ist. Das Internet Mail Consortium (IMC) empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können.[5]
Bei der UTF-8-Kodierung wird jedem Unicode-Zeichen eine Byte-Kette mit einer Länge von zwischen einem und vier Byte zugeordnet.[Anm. 1] Damit lassen sich – wie bei allen UTF-Formaten – alle Unicode-Zeichen abbilden.
Die ersten 128 Unicodezeichen (U+0000 bis U+007F, entsprechend den Positionen 0–127 in allen ISO-8859-Varianten, auch als 7-Bit-ASCII-bezeichnet) werden in UTF-8 deckungsgleich durch nur ein Byte dargestellt. Dies umfasst unter anderem die Ziffern und die Groß- und Kleinbuchstaben des lateinischen Grundalphabets. Zusätzliche Zeichen in europäischen Sprachen mit lateinischer Schrift, z. B. ä, ß, é, ł, Š, werden durch zwei Byte dargestellt. Texte in solchen Sprachen benötigen daher nur wenig mehr als ein Byte pro Zeichen. Englischsprachige Texte lassen sich im Regelfall sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten.
Griechische, kyrillische oder arabische Buchstaben belegen ebenfalls zwei Bytes. Zeichen aus indischen und fernöstlichen Schriften belegen meist drei Byte, einige seltene Zeichen und Schriften sogar vier Byte je Zeichen.
Im Vergleich zu UTF-16, bei dem alle Zeichen der Basic multilingual plane (BMP) von Unicode durch zwei Byte dargestellt werden, ist UTF-8 für Texte mit relativ hohem Anteil an 7-Bit-ASCII-Zeichen deutlich kompakter, jedoch platzintensiver bei Zeichen zwischen U+0800 und U+FFFF (v. a. asiatische Sprachen, vgl. Liste der Unicodeblöcke)
Aus dem im Folgenden beschriebenen Algorithmus ergeben sich weiterhin folgende Eigenschaften:
UTF-8 ist von der IETF, dem Unicode-Konsortium und der ISO gegenwärtig identisch definiert in den Normdokumenten:
Diese lösen ältere, teilweise abweichende Definitionen ab, die teilweise noch von älterer Software benutzt werden:
Unicode-Zeichen mit Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben.
Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu 2 bis 4 Byte langen Bytefolgen. Dabei beginnt das erste Byte immer mit 11, die weiteren Bytes mit 10. Die Anzahl der Einsen 1 vor der ersten Null 0 im ersten Byte ist gleich der Gesamtzahl der Bytes für das Zeichen. Die Bits, die in Unicode ein Zeichen darstellen, werden bündig angeordnet – das niedrigste Bit (least significant bit) des Unicode-Zeichens steht also immer im niedrigsten Bit des letzten UTF-8-Bytes.
Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes heißen Folge-Bytes. Start-Bytes beginnen also immer mit 0 oder 11, Folge-Bytes immer mit 10.
Unicode-Bereich (hexadezimal) |
UTF-8-Kodierung | Anzahl kodierbarer Zeichen | ||||||
---|---|---|---|---|---|---|---|---|
Byte 1 | Byte 2 | Byte 3 | Byte 4 | im Standard erlaubt | theoretisch möglich | |||
00 – 7F | 0 a6a5a4a3a2a1a0 | 27 | 128 | 27 | 128 | |||
0080 – 07FF | 1 1 0 b2b1b0a7a6 | 1 0 a5a4a3a2a1a0 | 211 − 27 | 1920 | 211 | 2048 | ||
0800 – FFFF | 1 1 1 0 b7b6b5b4 | 1 0 b3b2b1b0a7a6 | 1 0 a5a4a3a2a1a0 | 216 − 211 | 63.488 | 216 | 65.536 | |
01 0000 – 10 FFFF | 1 1 1 1 0 c4c3c2 | 1 0 c1c0b7b6b5b4 | 1 0 b3b2b1b0a7a6 | 1 0 a5a4a3a2a1a0 | 220 | 1.048.576 | 221 | 2.097.152 |
Mit vier Bytes lässt sich der gesamte Unicode-Bereich abdecken (auch UTF-16 und UTF-32 kodieren den gesamten Wertebereich von Unicode).
Dieser Algorithmus lässt theoretisch längere Bytesequenzen zu. Ursprünglich wurden auch Folgen aus fünf Bytes (Startbyte 111110xx: F8hex bis FBhex) und sechs Bytes (Startbyte 1111110x: FChex und FDhex) definiert, in denen so insgesamt 31 Bit für den enthaltenen Unicode-Wert kodiert werden konnten. In seiner Verwendung als UTF-Kodierung ist er aber auf den gemeinsamen Coderaum aller Unicode-Kodierungen beschränkt, also von 0 bis 0010 FFFF (17 Ebenen mit insgesamt 1.114.112 Codepoints) und weist maximal vier Bytes lange Byteketten auf. Längere Bytefolgen und größere Werte gelten heute als unzulässige Codes und sind entsprechend zu behandeln. Außerdem gibt es weitere Einschränkungen:
Kann eine Byte-Sequenz nicht als UTF-8-Zeichen interpretiert werden, so wird es beim Lesen in der Regel durch das Unicode-Replacement-Zeichen U+FFFD bzw. EF,BF,BD ersetzt.
Durch die Kodierungsregel von UTF-8 sind bestimmte Bytewerte nicht zulässig. In nachfolgender Tabelle sind alle 256 Möglichkeiten aufgeführt und deren Verwendung bzw. Gültigkeit angegeben. Bytewerte in roten Zeilen sind unzulässig, grün beschreibt zulässige Bytewerte, welche unmittelbar ein Zeichen darstellen. In blau sind jene Werte hinterlegt, welche den Start einer Sequenz von zwei oder mehr Byte beginnen und als Sequenz mit den Bytewerten aus orange hinterlegten Zeilen fortgesetzt werden.
UTF-8 Wertebereich | Bedeutung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Binär | Hexadezimal | Dezimal | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
00000000–01111111 | 00–7F | 0–127 | Ein Byte lange Zeichen, deckungsgleich mit US-ASCII | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10000000–10111111 | 80–BF | 128–191 | Zweites, drittes oder viertes Byte einer Bytesequenz | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11000000–11000001 | C0–C1 | 192–193 | Start einer 2 Byte langen Sequenz, welche den Codebereich aus 0 bis 127 abbildet, unzulässig | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11000010–11011111 | C2–DF | 194–223 | Start einer 2 Byte langen Sequenz (U+0080 … U+07FF)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11100000–11101111 | E0–EF | 224–239 | Start einer 3 Byte langen Sequenz (U+0800 … U+FFFF)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11110000–11110100 | F0–F4 | 240–244 | Start einer 4 Byte langen Sequenz (Inklusive der ungültigen Codebereiche von 110000 bis 13FFFF )
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11110101–11110111 | F5–F7 | 245–247 | Ungültig nach RFC 3629:[7] Start einer 4 Byte langen Sequenz für Codebereich über 140000
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11111000–11111011 | F8–FB | 248–251 | Ungültig nach RFC 3629:[7] Start einer 5 Byte langen Sequenz | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11111100–11111101 | FC–FD | 252–253 | Ungültig nach RFC 3629:[7] Start einer 6 Byte langen Sequenz | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11111110–11111111 | FE–FF | 254–255 | Ungültig. In der ursprünglichen UTF-8-Spezifikation nicht definiert. |
Code | …0 | …1 | …2 | …3 | …4 | …5 | …6 | …7 | …8 | …9 | …A | …B | …C | …D | …E | …F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0… | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
1… | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
2… | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3… | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4… | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5… | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6… | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7… | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
8… | Zweites, drittes oder viertes Byte einer Bytesequenz | |||||||||||||||
9… | ||||||||||||||||
A… | ||||||||||||||||
B… | ||||||||||||||||
C… | ||||||||||||||||
D… | ||||||||||||||||
E… | Start einer 3 Byte langen Sequenz | |||||||||||||||
F… | Start einer 4 Byte langen Sequenz | |||||||||||||||
…0 | …1 | …2 | …3 | …4 | …5 | …6 | …7 | …8 | …9 | …A | …B | …C | …D | …E | …F |
In folgender Tabelle sind einige Kodierungsbeispiele für UTF-8 angegeben:
Zeichen | Unicode | Unicode binär | UTF-8 binär | UTF-8 hexadezimal |
---|---|---|---|---|
Buchstabe y | U+0079 | 00000000 01111001 | 01111001 | 79 |
Buchstabe ä | U+00E4 | 00000000 11100100 | 11000011 10100100 | C3 A4 |
Zeichen für eingetragene Marke ® | U+00AE | 00000000 10101110 | 11000010 10101110 | C2 AE |
Eurozeichen € | U+20AC | 00100000 10101100 | 11100010 10000010 10101100 | E2 82 AC |
Violinschlüssel 𝄞 | U+1D11E | 00000001 11010001 00011110 | 11110000 10011101 10000100 10011110 | F0 9D 84 9E |
Das letzte Beispiel liegt außerhalb des ursprünglich in Unicode (unter Version 2.0) enthaltenen Codebereiches (16 Bit), der in der aktuellen Unicode-Version als BMP-Bereich (Ebene 0) enthalten ist. Da derzeit viele Schriftarten diese neuen Unicode-Bereiche noch nicht enthalten, können die dort enthaltenen Zeichen auf vielen Plattformen nicht korrekt dargestellt werden. Stattdessen wird ein Ersatzzeichen dargestellt, welches als Platzhalter dient.
Aus dem Algorithmus ergeben sich folgende Eigenschaften von UTF-8:
Obwohl bei UTF-8 aufgrund der Art der Kodierung grundsätzlich nicht das Problem unterschiedlicher Bytereihenfolgen auftreten kann, fügen einige Programme eine Byte Order Mark (BOM, deutsch Bytereihenfolge-Markierung) am Dateianfang von UTF-8-Dateien ein. Die BOM besteht aus der Bytesequenz EF BB BF, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichenfolge  erscheint und für Kompatibilitätsprobleme verantwortlich sein kann.
Die Buchstaben des lateinischen Grundalphabets sowie die wichtigsten Satzzeichen werden in UTF-8 und ISO 8859 identisch angezeigt. Probleme mit der falsch gewählten Zeichencodierung treten bei den anderen Zeichen auf, beispielsweise bei Umlauten. In deutschsprachigen Texten treten diese Zeichen jedoch nur vereinzelt auf, sodass der Text zwar stark entstellt wirkt, aber meist noch lesbar bleibt.
Code | UTF-8 | ISO 8859-1 | ISO 8859-15 | UTF16 | |
---|---|---|---|---|---|
C3 84hex | U+00C4 | Ä | Ã | Ã | 쎄 |
C3 96hex | U+00D6 | Ö | Ã | Ã | 쎖 |
C3 9Chex | U+00DC | Ü | Ã | Ã | 쎜 |
C3 9Fhex | U+00DF | ß | Ã | Ã | 쎟 |
C3 A4hex | U+00E4 | ä | ä | À | 쎤 |
C3 B6hex | U+00F6 | ö | ö | ö | 쎶 |
C3 BChex | U+00FC | ü | ü | ÃŒ | 쎼 |
Code | ISO 8859-1/15 | UTF-8 |
---|---|---|
C4hex | Ä | Startbyte für U+0100 bis U+013F |
D6hex | Ö | Startbyte für U+0580 bis U+013F |
DChex | Ü | Startbyte für U+0100 bis U+013F |
DFhex | ß | Startbyte für U+0580 bis U+05BF |
E4hex | ä | Startbyte für U+4000 bis U+4FFF |
F6hex | ö | unzulässig |
FChex | ü | unzulässig |
In UTF-8 bestehen die Umlaute des deutschen Alphabets (sofern sie in der Normalform NFC vorliegen, also als precomposed character) und das ß aus zwei Bytes; nach ISO 8859 wird jedes dieser Zeichen als 1 Byte codiert und jedes Byte beim Lesen in ein Zeichen transformiert. Das in der UTF-8-Kodierung dieser Buchstaben gemeinsame erste Byte C3hex wird in den meisten ISO-8859-Varianten als à decodiert. Bei ÄÖÜß wird das zweite Byte nicht oder mit dem gleichen Fehler-Zeichen dargestellt, weil 7Fhex bis 9Fhex in ISO 8859 nicht definiert sind.
Umgekehrt führen bei der Interpretation eines in ISO-8859-codierten Textes als UTF-8 die Buchstaben öü zur Anzeige eines Ersetzungszeichens, weil der entsprechende Byte-Wert nicht definiert ist. Bei den Buchstaben ÄÖÜß wird ein Start-Byte angenommen und versucht, das nächste Byte als Folgebyte gemeinsam als ein Zeichen zu interpretieren. Das scheitert in der Regel, weil die Codierungen der meisten Buchstaben – aller Buchstaben im Fall von ISO 8859-1 – keine gültigen Folgebytes sind. Bei einem ä wird sogar versucht, die nächsten beiden Bytes als Folgebytes zu interpretieren, was aus denselben Gründen regelmäßig scheitert. Je nach Programmierung des anzeigenden Programms verschwinden womöglich entsprechend viele Buchstaben aus dem Text.
Ein Beispiel für das Wort Höhe:
Die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge erfordert mehr Rechenzeit als Zeichenkodierungen mit fester Byteanzahl und ‑zuordnung, weil jedes Byte analysiert und ggf. konvertiert werden muss. Eine Kodierung ohne Konversion war UCS-2, das Microsoft 1993 mit Windows NT 3.1 einführte. Hier wurde jedes Zeichen ursprünglich fest mit zwei Bytes belegt, wodurch der ursprüngliche Unicode-Umfang von 65.535 Zeichen abdeckbar war, um den Preis eines erhöhten Speicherbedarfs (ungefähr Faktor 2 bei Englisch und westeuropäischen Sprachen). Da durch die spätere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren, erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF-16 Little Endian, womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor.[11]