UTF-8 (на английски: 8-bit Unicode Transformation Format или 8-bit UCS Transformation Format[1]) е стандарт за символно кодиране. Чрез UTF-8 може да бъде кодиран всеки символ или кодова точка в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.
Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е, за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложненията с ендиани и маркери за последователността на байтовете при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от: Universal Coded Character Set + Transformation Format—8-bit.[2]
UTF-8 е най-използваният стандарт за кодиране в световната мрежа (World Wide Web). Използван е при създаването на 86,6% от всички интернет страници към септември 2015 г.[3][4][5][6] Internet Mail Consortium препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.[7] W3C препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с XML и HTML.
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.
Тази страница частично или изцяло представлява превод на страницата UTF-8 в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.
ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни. |