Zahlzeichen in Unicode

Neben Buchstaben und anderen Schriftzeichen kodiert Unicode auch eine Reihe von Zahlzeichen für verschiedene Zahlschriften. Neben verschiedenen Formen der Dezimalziffern sind auch chinesische Zahlen und historische Zahlzeichen wie römische Zahlen kodiert. Weiter gibt es auch Brüche und verschiedene aus Zahlen abgeleitete Symbole.

Allgemeines

Um mit Zahlzeichen zu arbeiten, stellt der Unicode-Standard zwei Eigenschaften zur Verfügung: Numeric_Type gibt an, um was für eine Art von Zahlzeichen es sich handelt. Der Wert decimal kennzeichnet ein Zeichen dabei als Dezimalziffer, sodass Programme leicht den numerischen Wert einer Folge solcher Zahlzeichen bestimmen können. Bei anderen Zahlzeichen können komplexere Umrechnungen notwendig sein, etwa bei römischen Zahlen. Den numerischen Wert eines Zeichens kann man an der Eigenschaft Numeric_Value ablesen. Die kodierten Zahlzeichen umfassen einen Wertebereich von −½ (༳, U+0F33, Tibetisch) bis 1.000.000.000.000 (兆, U+5146, Chinesisch und 𖭡, U+16B61, Pahawh Hmong).^[1]

Nicht als Zahlzeichen betrachtet werden Zeichen, die nur manchmal zur Darstellung von Zahlen genutzt werden. So haben in einer Aufzählung, die Buchstaben verwendet (a) … b) … c) …) die Buchstaben die Werte 1 bis 3, da dies aber nicht die Hauptverwendung darstellt, werden sie von Unicode als Buchstaben, nicht als Zahlen behandelt.

Kodierte Zeichen

Dezimalziffern

Die indischen Dezimalziffern werden in vielen verschiedenen Schriften in abweichenden Formen verwendet. Unicode kodiert daher die Ziffern für die einzelnen Schriftsysteme jeweils extra. Als „europäisch“ werden dabei die Ziffernformen bezeichnet, die sich ursprünglich in Europa entwickelten, heute aber weltweit in Gebrauch sind. Daneben gibt es die Ziffern im Arabischen und verschiedenen indischen Schriften. N’Ko fällt aus dem Rahmen, da hier Zahlen von rechts nach links geschrieben werden.

Form	Ziffern	Block
Europäisch	0123456789	Basis-Lateinisch
Arabisch	٠١٢٣٤٥٦٧٨٩	Arabisch
Arabisch (Iran, Pakistan, Afghanistan)	۰۱۲۳۴۵۶۷۸۹	Arabisch
Devanagari	०१२३४५६७८९	Devanagari
Bengalisch	০১২৩৪৫৬৭৮৯	Bengalisch
Gurmukhi	੦੧੨੩੪੫੬੭੮੯	Gurmukhi
Gujarati	૦૧૨૩૪૫૬૭૮૯	Gujarati
Oriya	୦୧୨୩୪୫୬୭୮୯	Oriya
Tamilisch	௦௧௨௩௪௫௬௭௮௯	Tamilisch
Telugu	౦౧౨౩౪౫౬౭౮౯	Telugu
Kannada	೦೧೨೩೪೫೬೭೮೯	Kannada
Malayalam	൦൧൨൩൪൫൬൭൮൯	Malayalam
Tibetisch	༠༡༢༣༤༥༦༧༨༩	Tibetisch
Lepcha	᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉	Lepcha
Limbu	᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏	Limbu
Saurashtra	꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙	Saurashtra
Sharada	𑇐𑇑𑇒𑇓𑇔𑇕𑇖𑇗𑇘𑇙	Sharada
Takri	𑛀𑛁𑛂𑛃𑛄𑛅𑛆𑛇𑛈𑛉	Takri
Chakma	𑄶𑄷𑄸𑄹𑄺𑄻𑄼𑄽𑄾𑄿	Chakma
Meitei-Mayek	꯰꯱꯲꯳꯴꯵꯶꯷꯸꯹	Meitei-Mayek
Ol Chiki	᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙	Ol Chiki
Sorang-Sompeng	𑃰𑃱𑃲𑃳𑃴𑃵𑃶𑃷𑃸𑃹	Sorang-Sompeng
Brahmi	𑁦𑁧𑁨𑁩𑁪𑁫𑁬𑁭𑁮𑁯	Brahmi
Thailändisch	๐๑๒๓๔๕๖๗๘๙	Thailändisch
Laotisch	໐໑໒໓໔໕໖໗໘໙	Laotisch
Birmanisch	၀၁၂၃၄၅၆၇၈၉	Birmanisch
Birmanisch (Shan)	႐႑႒႓႔႕႖႗႘႙	Birmanisch
Khmer	០១២៣៤៥៦៧៨៩	Khmer
Neu-Tai-Lue	᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙	Neu-Tai-Lue
Lanna (säkular)	᪀᪁᪂᪃᪄᪅᪆᪇᪈᪉	Lanna
Lanna (sakral)	᪐᪑᪒᪓᪔᪕᪖᪗᪘᪙	Lanna
Kayah Li	꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉	Kayah Li
Cham	꩐꩑꩒꩓꩔꩕꩖꩗꩘꩙	Cham
Balinesisch	᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙	Balinesisch
Javanisch	꧐꧑꧒꧓꧔꧕꧖꧗꧘꧙	Javanisch
Sundanesisch	᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹	Sundanesisch
Mongolisch	᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙	Mongolisch
Osmaniya	𐒠𐒡𐒢𐒣𐒤𐒥𐒦𐒧𐒨𐒩	Osmaniya
N’Ko	߀߁߂߃߄߅߆߇߈߉	N’Ko
Vai	꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩	Vai

Daneben gibt es weitere Blöcke, die aus den europäischen Ziffern abgeleitete Symbole enthalten, etwa eingekreiste Zahlen.

Buchstabenbasierte Zahlzeichen

Viele Zahlensysteme verwenden die gewöhnlichen Buchstaben der Schrift, um Zahlen darzustellen. Solche Buchstaben werden in Unicode nicht als Zahlzeichen angesehen, auch werden sie in den meisten Fällen nicht doppelt kodiert. Es gibt aber auch einige Zahlensysteme, deren Zahlzeichen zwar auf den Buchstaben aufbauen, sich aber von diesen unterscheiden. So enthält der Unicodeblock Altgriechische Zahlzeichen eine Reihe von altgriechischen akrophonischen Zahlzeichen für die griechische Zahlschrift.

Ein besonderer Fall sind die römischen Zahlen. Hier sind die Zahlen von 1 bis 12, sowie 50 (L), 100 (C), 500 (D) und 1000 (M) im Unicodeblock Zahlzeichen zusammen mit den Zeichen für 5000 und 10.000 extra kodiert. Diese sind vor allem zur Verwendung mit den Zeichen ostasiatischer Schriften in Unicode gedacht, da sie im Spaltenlayout nicht wie normale Buchstaben um 90° gedreht dargestellt werden. In anderen Fällen aber sollten römische Zahlen aus den gewöhnlichen lateinischen Buchstaben zusammengesetzt werden.

Chinesische Zahlzeichen

Die Zeichen für die chinesische Zahlschrift sind zusammen mit den anderen CJK-Zeichen im Unicodeblock Vereinheitlichte CJK-Ideogramme kodiert. Ebenfalls kodiert sind wie für die europäischen Dezimalziffern auch eingekreiste Formen. Auch die älteren Stabziffern haben mit dem Unicodeblock Zählstabziffern einen eigenen Block.

Weitere Zahlzeichen

Weitere Zahlzeichen sind meist zusammen mit den Buchstaben einer Schrift im selben Block kodiert. Weitere Blöcke, die speziell Zahlzeichen gewidmet sind, sind die Blöcke Ägäische Zahlzeichen, Keilschrift-Zahlzeichen und -Interpunktion, Koptische Zahlzeichen und Singhalesische Zahlzeichen.

Brüche

Neben Zeichen für ganze Zahlen beinhaltet Unicode auch eine Reihe von Brüchen aus verschiedenen Zahlschriften. Für die europäischen Zahlen liegen diese hauptsächlich im Unicodeblock Zahlzeichen. Nordindische Brüche liegen im Unicodeblock Allgemeine indische Ziffern, altgriechische bei den anderen altgriechischen Zahlzeichen. Auch hier gibt es eine Reihe weiterer Zahlzeichen, die mit den Buchstaben einer Schrift zusammen in einem Block liegen.

Quellen

Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 15.3: Numerals. (online, PDF)

Einzelnachweise

↑ DerivedNumericValues.txt, Unicode 7.0

[1] DerivedNumericValues.txt, Unicode 7.0

[1]