Набор сімвалаў

Набор сімвалаў (англ.: character set) — табліца, якая задае кадзіроўку канчатковага мноства сімвалаў алфавіта (звычайна элементаў тэксту: літар, лічбаў, знакаў пунктуацыі). Такая табліца апісвае адпаведнасць кожнаму сімвалу паслядоўнасць даўжынёй у адзін ці некалькі сімвалаў іншага алфавіта (кропак і працяжнікаў у кодзе Морзэ, сігнальных флагаў на флоце, нулёў і адзінак (бітаў) у камп’ютары).

Набор сімвалаў у камп’ютары

Сімвалы ў камп’ютары звычайна кадуюцца адным ці некалькімі байтамі (групамі з васьмі бітаў).

Хоць тэрмін «набор сімвалаў» (англ.: character set, charset), узаконены інтэрнэт-стандартам RFC 2278, зараз з’яўляецца найбольш аўтарытэтным, папярэдні яму тэрмін «кадзіроўка» (англ.: encoding) па-ранейшаму ўжываецца ў якасці сіноніма, у прыватнасці, у мовах праграміравання Java^[1], Perl^[2] і XSLT^[3], а таксама ў HTML^[4].

Часам таксама замест тэрміна «набор сімвалаў» памылкова ўжываюць тэрмін «кодавая старонка», які пазначае на самой справе асобны выпадак набору сімвалаў у аднабайтным кадаванем.

У цяперашні час галоўным чынам выкарыстоўваюцца кадзіроўкі трох тыпаў: сумяшчальныя з ASCII, сумяшчальныя з EBCDIC і заснаваныя на Унікодзе 16-бітныя, з пераважаннем першых. Уяўленне UTF-8 Унікода сумяшчальна з ASCII. Кадыроўкі на базе EBCDIC (напрыклад, ДКОИ-8 (руск.) (бел.) ужываюцца толькі на некаторых мэйнфрэймах. Першапачаткова ў кожнай аперацыйнай сістэме ўжываўся адзін набор сімвалаў. Цяпер наборы сімвалаў стандартызаваныя^[5], залежаць ад тыпу аперацыйнай сістэмы толькі па традыцыі і ўсталёўваюцца згодна лакалі.

У Вікіпедыі і іншых праектах Фонду Вікімедыя ўжываецца Унікод UTF-8.

Распаўсюджаныя кадзіроўкі

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859:
- ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
Кадыроўкі Microsoft Windows:
- Windows-1250 для моў Цэнтральнай Еўропы, якія ўжываюць лацінскае напісанне літар (польскі, чэшскі, славацкі, венгерскі, славенскі, харвацкі, румынскі і албанскі)
- Windows-1251 для кірылічных алфавітаў
- Windows-1252 для заходніх моў
- Windows-1253 для грэчаскай мовы
- Windows-1254 для турэцкай мовы
- Windows-1255 для іўрыту
- Windows-1256 для арабскай мовы
- Windows-1257 для балтыйскіх моў
- Windows-1258 для в’етнамскай мовы
MacRoman, MacCyrillic
КОИ8 (KOI8-R, KOI8-U…), КОИ-7
Балгарская кадзіроўка
ISCII
VISCII
Big5 (найбольш вядомы варыянт Microsoft CP950)
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936)
- GB18030
Shift JIS для японскай мовы (Microsoft CP932)
EUC-KR для карэйскай мовы (Microsoft CP949)
ISO-2022 и EUC для кітайскай пісьменнасці
Кадыроўкі UTF-8, UTF-16 і UTF-32 набора сімвалаў Унікод

Гл. таксама

Зноскі

[1] Пералік асноўных «кадыровак» ў дапаможніку па Java SE 6

[2] Абмеркаванне тэмы «кадыровак» у дакументацыі па мове Perl

[3] Абмеркаванне тэмы «кадыровак» у дакументацыі па тэхналогіі XSLT

[4] Абмеркаванне суадносін тэрмінаў «кадзіроўка» і «набор сімвалаў» у дакументацыі па мове HTML

[5] Спецыфікацыі набораў сімвалаў на сайце IANA

[1]

[2]

[3]

[4]

[5]