Zahlzeichen in Unicode

Neben Buchstaben und anderen Schriftzeichen kodiert Unicode auch eine Reihe von Zahlzeichen für verschiedene Zahlschriften. Neben verschiedenen Formen der Dezimalziffern sind auch chinesische Zahlen und historische Zahlzeichen wie römische Zahlen kodiert. Weiter gibt es auch Brüche und verschiedene aus Zahlen abgeleitete Symbole.

Um mit Zahlzeichen zu arbeiten, stellt der Unicode-Standard zwei Eigenschaften zur Verfügung: Numeric_Type gibt an, um was für eine Art von Zahlzeichen es sich handelt. Der Wert decimal kennzeichnet ein Zeichen dabei als Dezimalziffer, sodass Programme leicht den numerischen Wert einer Folge solcher Zahlzeichen bestimmen können. Bei anderen Zahlzeichen können komplexere Umrechnungen notwendig sein, etwa bei römischen Zahlen. Den numerischen Wert eines Zeichens kann man an der Eigenschaft Numeric_Value ablesen. Die kodierten Zahlzeichen umfassen einen Wertebereich von −½ (༳, U+0F33, Tibetisch) bis 1.000.000.000.000 (兆, U+5146, Chinesisch und 𖭡, U+16B61, Pahawh Hmong).[1]

Nicht als Zahlzeichen betrachtet werden Zeichen, die nur manchmal zur Darstellung von Zahlen genutzt werden. So haben in einer Aufzählung, die Buchstaben verwendet (a) … b) … c) …) die Buchstaben die Werte 1 bis 3, da dies aber nicht die Hauptverwendung darstellt, werden sie von Unicode als Buchstaben, nicht als Zahlen behandelt.

Kodierte Zeichen

[Bearbeiten | Quelltext bearbeiten]

Die indischen Dezimalziffern werden in vielen verschiedenen Schriften in abweichenden Formen verwendet. Unicode kodiert daher die Ziffern für die einzelnen Schriftsysteme jeweils extra. Als „europäisch“ werden dabei die Ziffernformen bezeichnet, die sich ursprünglich in Europa entwickelten, heute aber weltweit in Gebrauch sind. Daneben gibt es die Ziffern im Arabischen und verschiedenen indischen Schriften. N’Ko fällt aus dem Rahmen, da hier Zahlen von rechts nach links geschrieben werden.

Form Ziffern Block
Europäisch 0123456789 Basis-Lateinisch
Arabisch ٠١٢٣٤٥٦٧٨٩ Arabisch
Arabisch
(Iran, Pakistan, Afghanistan)
۰۱۲۳۴۵۶۷۸۹
Devanagari ०१२३४५६७८९ Devanagari
Bengalisch ০১২৩৪৫৬৭৮৯ Bengalisch
Gurmukhi ੦੧੨੩੪੫੬੭੮੯ Gurmukhi
Gujarati ૦૧૨૩૪૫૬૭૮૯ Gujarati
Oriya ୦୧୨୩୪୫୬୭୮୯ Oriya
Tamilisch ௦௧௨௩௪௫௬௭௮௯ Tamilisch
Telugu ౦౧౨౩౪౫౬౭౮౯ Telugu
Kannada ೦೧೨೩೪೫೬೭೮೯ Kannada
Malayalam ൦൧൨൩൪൫൬൭൮൯ Malayalam
Tibetisch ༠༡༢༣༤༥༦༧༨༩ Tibetisch
Lepcha ᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉ Lepcha
Limbu ᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏ Limbu
Saurashtra ꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙ Saurashtra
Sharada 𑇐𑇑𑇒𑇓𑇔𑇕𑇖𑇗𑇘𑇙 Sharada
Takri 𑛀𑛁𑛂𑛃𑛄𑛅𑛆𑛇𑛈𑛉 Takri
Chakma 𑄶𑄷𑄸𑄹𑄺𑄻𑄼𑄽𑄾𑄿 Chakma
Meitei-Mayek ꯰꯱꯲꯳꯴꯵꯶꯷꯸꯹ Meitei-Mayek
Ol Chiki ᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙ Ol Chiki
Sorang-Sompeng 𑃰𑃱𑃲𑃳𑃴𑃵𑃶𑃷𑃸𑃹 Sorang-Sompeng
Brahmi 𑁦𑁧𑁨𑁩𑁪𑁫𑁬𑁭𑁮𑁯 Brahmi
Thailändisch ๐๑๒๓๔๕๖๗๘๙ Thailändisch
Laotisch ໐໑໒໓໔໕໖໗໘໙ Laotisch
Birmanisch ၀၁၂၃၄၅၆၇၈၉ Birmanisch
Birmanisch
(Shan)
႐႑႒႓႔႕႖႗႘႙
Khmer ០១២៣៤៥៦៧៨៩ Khmer
Neu-Tai-Lue ᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙ Neu-Tai-Lue
Lanna (säkular) ᪀᪁᪂᪃᪄᪅᪆᪇᪈᪉ Lanna
Lanna (sakral) ᪐᪑᪒᪓᪔᪕᪖᪗᪘᪙
Kayah Li ꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉ Kayah Li
Cham ꩐꩑꩒꩓꩔꩕꩖꩗꩘꩙ Cham
Balinesisch ᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙ Balinesisch
Javanisch ꧐꧑꧒꧓꧔꧕꧖꧗꧘꧙ Javanisch
Sundanesisch ᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹ Sundanesisch
Mongolisch ᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙ Mongolisch
Osmaniya 𐒠𐒡𐒢𐒣𐒤𐒥𐒦𐒧𐒨𐒩 Osmaniya
N’Ko ߀߁߂߃߄߅߆߇߈߉ N’Ko
Vai ꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩ Vai

Daneben gibt es weitere Blöcke, die aus den europäischen Ziffern abgeleitete Symbole enthalten, etwa eingekreiste Zahlen.

Buchstabenbasierte Zahlzeichen

[Bearbeiten | Quelltext bearbeiten]

Viele Zahlensysteme verwenden die gewöhnlichen Buchstaben der Schrift, um Zahlen darzustellen. Solche Buchstaben werden in Unicode nicht als Zahlzeichen angesehen, auch werden sie in den meisten Fällen nicht doppelt kodiert. Es gibt aber auch einige Zahlensysteme, deren Zahlzeichen zwar auf den Buchstaben aufbauen, sich aber von diesen unterscheiden. So enthält der Unicodeblock Altgriechische Zahlzeichen eine Reihe von altgriechischen akrophonischen Zahlzeichen für die griechische Zahlschrift.

Ein besonderer Fall sind die römischen Zahlen. Hier sind die Zahlen von 1 bis 12, sowie 50 (L), 100 (C), 500 (D) und 1000 (M) im Unicodeblock Zahlzeichen zusammen mit den Zeichen für 5000 und 10.000 extra kodiert. Diese sind vor allem zur Verwendung mit den Zeichen ostasiatischer Schriften in Unicode gedacht, da sie im Spaltenlayout nicht wie normale Buchstaben um 90° gedreht dargestellt werden. In anderen Fällen aber sollten römische Zahlen aus den gewöhnlichen lateinischen Buchstaben zusammengesetzt werden.

Chinesische Zahlzeichen

[Bearbeiten | Quelltext bearbeiten]

Die Zeichen für die chinesische Zahlschrift sind zusammen mit den anderen CJK-Zeichen im Unicodeblock Vereinheitlichte CJK-Ideogramme kodiert. Ebenfalls kodiert sind wie für die europäischen Dezimalziffern auch eingekreiste Formen. Auch die älteren Stabziffern haben mit dem Unicodeblock Zählstabziffern einen eigenen Block.

Weitere Zahlzeichen

[Bearbeiten | Quelltext bearbeiten]

Weitere Zahlzeichen sind meist zusammen mit den Buchstaben einer Schrift im selben Block kodiert. Weitere Blöcke, die speziell Zahlzeichen gewidmet sind, sind die Blöcke Ägäische Zahlzeichen, Keilschrift-Zahlzeichen und -Interpunktion, Koptische Zahlzeichen und Singhalesische Zahlzeichen.

Neben Zeichen für ganze Zahlen beinhaltet Unicode auch eine Reihe von Brüchen aus verschiedenen Zahlschriften. Für die europäischen Zahlen liegen diese hauptsächlich im Unicodeblock Zahlzeichen. Nordindische Brüche liegen im Unicodeblock Allgemeine indische Ziffern, altgriechische bei den anderen altgriechischen Zahlzeichen. Auch hier gibt es eine Reihe weiterer Zahlzeichen, die mit den Buchstaben einer Schrift zusammen in einem Block liegen.

  • Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 15.3: Numerals. (online, PDF)

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. DerivedNumericValues.txt, Unicode 7.0