Набор сімвалаў

Набор сімвалаў (англ.: character set) — табліца, якая задае кадзіроўку канчатковага мноства сімвалаў алфавіта (звычайна элементаў тэксту: літар, лічбаў, знакаў пунктуацыі). Такая табліца апісвае адпаведнасць кожнаму сімвалу паслядоўнасць даўжынёй у адзін ці некалькі сімвалаў іншага алфавіта (кропак і працяжнікаў у кодзе Морзэ, сігнальных флагаў на флоце, нулёў і адзінак (бітаў) у камп’ютары).

Набор сімвалаў у камп’ютары

[правіць | правіць зыходнік]

Сімвалы ў камп’ютары звычайна кадуюцца адным ці некалькімі байтамі (групамі з васьмі бітаў).

Хоць тэрмін «набор сімвалаў» (англ.: character set, charset), узаконены інтэрнэт-стандартам RFC 2278, зараз з’яўляецца найбольш аўтарытэтным, папярэдні яму тэрмін «кадзіроўка» (англ.: encoding) па-ранейшаму ўжываецца ў якасці сіноніма, у прыватнасці, у мовах праграміравання Java[1], Perl[2] і XSLT[3], а таксама ў HTML[4].

Часам таксама замест тэрміна «набор сімвалаў» памылкова ўжываюць тэрмін «кодавая старонка», які пазначае на самой справе асобны выпадак набору сімвалаў у аднабайтным кадаванем.

У цяперашні час галоўным чынам выкарыстоўваюцца кадзіроўкі трох тыпаў: сумяшчальныя з ASCII, сумяшчальныя з EBCDIC і заснаваныя на Унікодзе 16-бітныя, з пераважаннем першых. Уяўленне UTF-8 Унікода сумяшчальна з ASCII. Кадыроўкі на базе EBCDIC (напрыклад, ДКОИ-8  (руск.)) ужываюцца толькі на некаторых мэйнфрэймах. Першапачаткова ў кожнай аперацыйнай сістэме ўжываўся адзін набор сімвалаў. Цяпер наборы сімвалаў стандартызаваныя[5], залежаць ад тыпу аперацыйнай сістэмы толькі па традыцыі і ўсталёўваюцца згодна лакалі.

У Вікіпедыі і іншых праектах Фонду Вікімедыя ўжываецца Унікод UTF-8.

Распаўсюджаныя кадзіроўкі

[правіць | правіць зыходнік]

Зноскі