Esta páxina o seición ta desactualizada. La información que tien ye vieya o insuficiente. |
Última versión | 16.0.0 (, 10 setiembre 2024) |
---|---|
Tipu | codificación de caráuteres y coded character set (en) |
Llicencia | Unicode® Copyright and Terms of Use (en) |
Más información | |
Sitiu web | Web oficial |
Blog | Blog oficial |
Etiqueta de Stack Exchange | Stack Exchange |
Unicode ye un estándar de codificación de carácter diseñáu pa facilitar el tratamientu informáticu, tresmisión y visualización de testos de múltiples llinguaxes y disciplines téuniques, amás de testos clásicos de llingües muertes. El términu Unicode provién de los trés oxetivos escorríos: universalidá, uniformidá y unicidá.[2]
Unicode especifica un nome ya identificador numbéricu únicu pa cada caráuter o símbolu, el code point ('puntu de códigu'), amás d'otres informaciones necesaries pal so usu correutu: direicionalidá, mayúscules y otros atributos. Unicode trata los caráuteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que pueden entemecese nun mesmu testu ensin la introducción de marques o caráuteres de control.[3]
Esti estándar ye calteníu pol Unicode Technical Committee (UTC), integráu nel Consorciu Unicode, del que formen parte con distintu grau d'implicación empreses como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones como la Universidá de Berkeley, y profesionales y académicos a títulu individual.[4] El Unicode Consortium caltién estrecha rellación con ISO/IEC, cola que caltién dende 1991 l'alcuerdu de sincronizar los sos estándares que contienen los mesmos caráuteres y puntos de códigu.[5]
L'establecimientu de Unicode foi un ambiciosu proyeutu pa reemplazar los esquemes de codificación de caráuteres esistentes, munchos de los cualos tán bien llindaos en tamañu y son incompatibles con redolaes plurillingües. Unicode volvióse'l más estensu y completu esquema de codificación de caráuteres, siendo'l dominante na internacionalización y adautación llocal del software informáticu. L'estándar foi implementáu nun númberu considerable de teunoloxíes recién, qu'inclúin XML, Java y sistemes operativos modernos.
La descripción completa del estándar y les tables de caráuteres tán disponibles na páxina web oficial de Unicode [1]. La referencia completa publicar, amás, en forma de llibru impresu cada vez que se lliberar una nueva versión principal. La versión dixital d'esti llibru ta disponible de forma gratuita. Les revisiones y amiestes publicar de forma independiente.
Unicode inclúi tolos caráuteres d'usu común na actualidá. La versión 5.1 contenía 100 713 caráuteres provenientes d'alfabetos, sistemes ideográficos y coleiciones de símbolos (matemáticos, téunicos, musicales, iconos...). La cifra crez con cada versión.
Unicode inclúi sistemes d'escritura modernu como: árabe, braille, coptu, cirílicu, griegu, sinogramas (hanja coreanu, hanzi chinu y kanji xaponés), silabarios xaponeses (hiragana y katakana), hebréu y llatín; escritures históriques estinguíes, pa propósitos académicos, como por casu: cuneiforme, griegu antiguu, llinial B micénicu, feniciu y rúnicu. Ente los caráuteres non alfabéticos incluyíos en Unicode atópense símbolos musicales y matemáticos, fiches de xuegos como'l dominó, fleches, iconos etc.
Amás, Unicode inclúi los signos diacríticos como caráuteres independientes que pueden ser combinaos con otros caráuteres y dispón de versiones predefinidas de la mayoría de lletres con símbolos diacríticos n'usu na actualidá, como les vocales acentuaes del español.
Unicode ye un estándar en constante evolución y amiéstense nuevos caráuteres de cutio. Refugar ciertos alfabetos, propuestos por distintes razones, como por casu l'alfabetu klingon.[6]
Como yá s'indicó, Unicode ta sincronizáu col estándar ISO/IEC conocíu como UCS o xuegu de caráuteres universal. Dende un puntu de vista téunicu, inclúi o ye compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Amás, Unicode reserva espaciu pa fabricantes de software que pueden crear estensiones pal so propiu usu.[7]
L'elementu básicu del estándar Unicode ye'l caráuter. Considérase un caráuter al elementu más pequeñu d'un sistema d'escritura con significáu. L'estándar Unicode codifica los caráuteres esenciales ―grafemes― definiéndolos de forma astracta y dexa la representación visual (tamañu, dimensión, fonte o estilu) al software que lo trate, como procesador de testu o navegador web. Inclúyense lletres, signos diacríticos, caráuteres de puntuación, ideogrames, caráuteres silábicos, caráuteres de control y otros símbolos. Los caráuteres arrexuntar n'alfabetos o sistemes d'escritura. Considérase que son distintos los caráuteres d'alfabetos distintos, anque compartan forma y significación.
Los caráuteres identificar por aciu un númberu o puntu de códigu y el so nome o descripción. Cuando s'asignó un códigu a un caráuter, dizse que dichu caráuter ta codificado. L'espaciu pa códigos tien 1 114 112 posiciones posibles (0x10FFFF). Los puntos de códigu represéntense utilizando notación hexadecimal amestando'l prefixu U+. El valor hexadecimal completar con ceros hasta 4 díxitos hexadecimales cuando ye necesariu; si ye de llargor mayor que 4 díxitos nun s'amiesten ceros.
Los bloques del espaciu de códigos contienen puntos cola siguiente información:[8]
Unicode inclúi un mecanismu pa formar caráuteres y asina estender el repertoriu de compatibilidá colos símbolos esistentes. Un caráuter base complementar con marques: signos diacríticos, de puntuación o marcos. El tipu de cada caráuter y los sos atributos definen el papel que pueden xugar nuna combinación. Por esti motivu, puede haber delles opciones que representen el mesmu caráuter. Pa facilitar la compatibilidá con codificaciones anteriores, apúrrense caráuteres precompuestos; na definición de dichos caráuteres faise constar qué caráuteres intervienen na composición.
Un grupu de caráuteres consecutivos, independientemente del so tipu, forma una secuencia. En casu de que delles secuencies representen el mesmu conxuntu de caráuteres esenciales, l'estándar nun define una d'elles como 'correuta', sinón que les considera equivalentes. Pa poder identificar diches equivalencies, Unicode define los mecanismos de equivalencia canónica y de equivalencia de compatibilidá basaos nel llogru de formes normalizaes de les cadenes a comparar.
Nel estándar Unicode, los ideogrames d'Asia oriental (popularmente llamaos «caráuteres chinos») denominar «ideogrames han». Estos ideogrames desenvolver en China y fueron afechos por cultures próximes pal so propiu usu.[9][10] Xapón, Corea y Vietnam desenvolvieron los sos propios sistemes alfabéticos o silábicos pa usar en combinación colos símbolos chinos: hiragana y katakana (en Xapón), hangul (en Corea) y yi (en Vietnam). La evolución natural de los sistemes d'escritura y los distintos momentos d'entrada de los caráuteres nes distintes cultures marcaron diferencies nos ideogrames utilizaos. Unicode considera les distintes versiones de los ideogrames como variantes d'un mesmu caráuter astractu, esto ye, como resultáu de l'aplicación d'un tipu de lletra distinta en cada casu y considera les variantes nacionales como pertenecientes a un mesmu sistema d'escritura. La versión orixinal del estándar desenvolver a partir de los estándares industriales esistentes nos países afeutaos.
L'organismu encargáu de desenvolver el repertoriu de caráuteres ye l'Ideographic Rapporteur Group (IRG). IRG ye un grupu de trabayu integráu en ISO/IEC JTC1/SC2/WG2, incluyendo a China, Ḥong Kong, Macáu, Taipei Computer Association, Singapur, Xapón, Corea del Sur, Corea del Norte, Vietnam y Estaos Xuníos d'América.[9]
La base de datos de caráuteres CJK denominar Unihan y contién, amás, información auxiliar sobre significáu, conversiones, datos necesarios pa utilizalos nos distintos llinguaxes que los utilicen. De siguío amuésense los bloques que describen esti repertoriu. IRG define los caráuteres de los trés grupos unificaos, los siguientes dos grupos contienen caráuteres pa compatibilidá con estándares anteriores.
Bloque | Rangu de códigos | Comentarios |
Ideogrames unificaos CJK | 4Y00-9FFF | Ideogrames d'usu común. Tamañu de códigu: 2 bytes. |
3400-4DFF |
Ideogrames d'usu pocu habitual. Tamañu de códigu: 2 bytes. | |
Ideogrames unificaos CJK - Estensión B | 20000-2A6DF | Ideogrames d'usu pocu habitual y históricos. |
F900-FAFF |
Duplicaos, variantes unificables y caráuteres corporativos. Tamañu de códigu: 2 bytes. | |
2F800-2FA1F |
Variantes unificables. |
Almítese que nunca se podrá rematar la xera d'incluyir ideogrames nel estándar debíu, principalmente, a que la creación de nuevos ideogrames sigue. Con cuenta de suplir eventuales faltes, Unicode ufierta un mecanismu que dexa la representación de los símbolos que falten denomináu «secuencies de descripción ideográfica». Basar en que na práutica, la totalidá de los ideogrames puede descomponese en pieces más pequeñes que, de la mesma, son ideogrames. Anque sía posible la representación d'un símbolu por aciu una secuencia, l'estándar especifica que siempres qu'esista una versión codificada el so usu tien de ser preferente. Nun hai un métodu pa la descomposición canónica» d'ideogrames nin algoritmos d'equivalencia polo que les operaciones sobre'l testu, como busca o ordenación, pueden fallar.
Unicode define 12 caráuteres distintos pa la descripción d'ideogrames representando distintes posibilidaes de combinación espacial d'otros caráuteres han.
L'estándar foi diseñáu colos siguientes oxetivos:
El conxuntu de caráuteres codificados por Unicode, ye la UCD (unicode character database: base de datos de caráuteres Unicode). Amás de nome y puntu de códigu, inclúi más información: alfabetu al que pertenez, nome, clasificación, mayúscules, orientación y otres formes d'usu, variantes estandarizadas, regles de combinación, etc.
Formalmente la base de datos estremar en planos y estos de la mesma en árees y bloques. Con esceiciones, los caráuteres codificados arrexuntar nel espaciu de códigos siguiendo categoríes como alfabetu o sistema d'escritura, de forma que caráuteres rellacionaos atópense cerca en tables de codificación.
Por conveniencia estremóse l'espaciu de códigos en grandes grupos denominaos planos. Cada planu contién un máximu de 65 535 caráuteres. Dau un puntu de códigu espresáu n'hexadecimal, los 4 últimos díxitos determinen la posición del caráuter nel planu.
Los distintos planos estremar n'árees de direicionamientu en función de los tipos xenerales qu'inclúin. Esta división ye convencional, non reglada y puede variar col tiempu. Les árees estrémense, de la mesma, en bloques. Los bloques tán definíos normativamente y son rangos consecutivos del espaciu de códigos. Los bloques utilizar pa formar les tables impreses de carácter pero nun tienen de tomar se como definiciones de grupos significativos de caráuteres.
Los puntos de códigu de Unicode identificar por un númberu enteru. Según la so arquiteutura, un ordenador va utilizar unidaes de 8, 16 o 32 bits pa representar dichos enteros. Les formes de codificación de Unicode reglamentan la forma en que los puntos de códigu van tresformar n'unidaes tratables pol ordenador.
Unicode define trés formes de codificación sol nome UTF (Unicode transformation format: formatu de tresformamientu Unicode):[11]
Les formes de codificación llindar a describir la manera en que se representen los puntos de códigu en formatu intelixible pola máquina. A partir de les 3 formes identificaes defínense 7 esquemes de codificación.
Los esquemes de codificación traten de la forma en que se serializa la información codificada.[11] La seguridá nos intercambios d'información ente sistemes heteroxéneos rique la implementación de sistemes que dexen determinar l'orde correutu de los bits y bytes y garantizar que la reconstrucción de la información ye correuta. Una diferencia fundamental ente procesador ye l'orde de disposición de los bytes en pallabres de 16 y 32 bits, lo que se denomina endianness. Los esquemes de codificación tienen de garantizar que los estremos d'una comunicación saben cómo interpretar la información recibida. A partir de les 3 formes de codificación defínense 7 esquemes. A pesar de que comparten nomes, nun tien de confundir se esquemes y formes de codificación.
Esquema de codificación | Endianness | Almite BOM |
UTF-8 |
Sí | |
UTF-16 | Big-endian o Little-endian | Sí |
Big-endian |
Non | |
UTF-16-Y | Little-endian | Non |
UTF-32 | Big-endian o Little-endian | Sí |
Big-endian |
Non | |
UTF-32-Y | Little-endian | Non |
Unicode define una marca especial, la marca d'orde de bytes (BOM, Byte Order Mark), al entamu d'un ficheru o una comunicación pa faer esplícita la ordenación de bytes. Cuando un protocolu cimeru especifica l'orde de bytes, la marca nun ye necesaria y puede omitise dando llugar a los esquemes de la llista anterior con sufixu BE o -Y. Nos esquemes UTF-16 y UTF-32, qu'almiten BOM, si esti nun s'especifica asumir que la ordenación de bytes ye big-endian.
La unidá de codificación en UTF-8 ye'l byte polo que nun precisa una indicación d'orde de byte. L'estándar nin rique nin encamienta l'usu de BOM, pero almitir como marca de que'l testu ye Unicode o como resultáu de la conversión d'otros esquemes.
El proyeutu Unicode empecipiar a finales de 1987, tres conversaciones ente Joe Becker, Lee Collins y Mark Davis (inxenieros de les empreses Apple y Xerox).[12] Como resultáu de la so collaboración, n'agostu de 1988 publicóse'l primer borrador de Unicode sol nome de Unicode88.[13] Esta primer versión, con códigos de 16 bits, publicóse asumiendo que solo se codificarían los caráuteres necesarios pal usu modernu.
Mientres l'añu 1989 el trabayu siguió cola adición de collaboradores d'otres compañíes como Microsoft o Sun Microsystems. El Consorciu Unicode formóse'l 3 de febreru de 1991, y n'ochobre de 1991 publicóse la primer versión del estándar. La segunda versión, incluyendo escritura ideográfico han publicar en xunu de 1992. De siguío amuésase una tabla coles distintes versiones del Estándar Unicode colos sos amiestes o cambeos más importantes.
Esta páxina o seición ta desactualizada. La información que tien ye vieya o insuficiente. |
Versión | Fecha |
Publicación |
Edición ISO/IEC 10646 acomuñada |
Escritures |
Caráuteres | |
---|---|---|---|---|---|---|
# | Amiestes notables | |||||
1.0 | ochobre de 1991 | ISBN 0-201-56788-1 (Vol.1). | 24 | 7161 | El repertoriu inicial cubre los alfabetos: árabe, armeniu, bengalí, bopomofo, cirílicu, devanágari, xeorxanu, griegu/coptu, guyaratí, gurmukhi, hangul, hebréu, hiragana, kannada, katakana, lao, llatín, malayalam, oriya, tamil, télugu, thai, y tibetanu.[14] | |
1.0.1 | xunu de 1992 | ISBN 0-201-60845-6 (Vol.2). | 25 | 28 359 | Definíu'l primer conxuntu de 20 902 ideogrames CJK unificaos.[14] | |
1.1 | xunu de 1993 | ISO/IEC 10646-1:1993 | 24 | 34 233 | Amiéstense 4306 caráuteres hangul, más al conxuntu orixinal de 2350. Esaníciase l'alfabetu tibetanu.[14] | |
2.0 | xunetu de 1996 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993 con enmiendes 5, 6 y 7 | 25 | 38 950 | Esaniciáu'l conxuntu orixinal de caráuteres hangul; amiéstase un nuevu conxuntu de 11 172 caráuteres hangul nun nuevu allugamientu. Reincorpórase l'alfabetu tibetanu nun nuevu allugamientu y con un xuegu de caráuteres distintu. Defínese'l sistema de códigos subrogados y créanse los planos 15 y 16 de caráuteres pa usu priváu.[14] |
2.1 | mayu de 1998 | ISO/IEC 10646-1:1993 con enmiendes 5, 6 y 7, y dos caráuteres de la enmienda 18 | 25 | 38 952 | Amiéstase'l símbolu del euru.[14] | |
3.0 | setiembre de 1999 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49 259 | Ideogrames cheroqui. Escritures etíope, jemer, mongol, Myanmar, ogham, alfabetu rúnicu, cingalés, siríacu, thaana, silabariu unificáu de los indíxenes canadienses, y yi amás de los patrones braille.[14] |
3.1 | marzu de 2001 | ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001 |
41 | 94 205 | Amiéstense los alfabetos deseret, góticu y etruscu, y los símbolos de notación musical moderna, música bizantina, y 42 711 ideogrames de CJK unificáu.[15] | |
3.2 | marzu de 2002 | ISO/IEC 10646-1:2000 cola enmienda 1
ISO/IEC 10646-2:2001 |
45 | 95 221 | Amestaes les escritures filipines: buhid, hanunó'o, tagalu, y tagbanwa.[15] | |
4.0 | abril de 2003 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96 447 | Amiéstase'l silabariu chipriota, limbu, llinial B, osmanya, shaviano, tai -y, y ugarítico, y los hexagramas I Ching.[15] |
4.1 | marzu de 2005 | ISO/IEC 10646:2003 con enmienda 1 | 59 | 97 720 | Agregaos buginés, glagolíticu, kharoshthi, new tai lue, persa antiguu, syloti nagri, y nifinagh. Dixébrase'l coptu del alfabetu griegu. Símbolos griegos antiguos pa música y numberación.[15] | |
5.0 | xunetu de 2006 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003 con enmiendes 1 y 2 y cuatro caráuteres de la enmienda 3 | 64 | 99 089 | Agregaos: balinés, cuneiforme, n'ko (mandé), phags-pa, y feniciu.[15] |
5.1 | abril de 2008 | ISO/IEC 10646:2003 más enmiendes 1, 2, 3 y 4 | 75 | 100 713 | Agregaos: escritura caria, cham, kayah li, escritura lepcha, alfabetu liciu, alfabetu trepo, alfabetu ol chiki, rejang, saurashtra, sundanés, y el silabariu vai. Los xeroglíficos del discu de Festos, fiches de mahjong y de dominó. Amiestes importantes pal birmanu, lletres y abreviatures d'amanuense utilizaes en manuscritos medievales y la adición de la ß mayúscula.[16] | |
5.2 | ochobre de 2009 | ISBN 978-1-936213-00-9 | ISO/IEC 10646:2003 más enmiendes de 1 a 6 | 90 | 107 361 | Agregaos: bamúm, javanés, lisu, meetei mayek, samaritanu, tai tham, y tai viet. Amplióse'l devanágari cola adición del alfabetu sánscritu. Ampliaciones importantes pal abkhasu, el silabariu unificáu de los indíxenes canadianos, coptu, khamti shan, malayu, myanmar. Tamién s'amiesten símbolos y caráuteres históricos como los xeroglíficos exipcios de Gardiner, araméu imperial, avéstico, kaithi, antiguu árabe del Sur y turcu antiguu.[17] |
6.0 | ochobre de 2010 | ISBN 978-1-936213-01-6 | ISO/IEC 10646:2011 | 93 | 109 449 |
La versión 6.0 ye la primer versión principal del estándar publicada puramente en soporte electrónicu. Amestaos mandeo, batak y brahmi, ampliaciones de llinguaxes africanos como tifinagh, etíope y bamúm. Otres amiestes importantes son: 222 ideogrames CJK, 1000 símbolos incluyendo los pictogrames emoji, el nuevu símbolu oficial pa la rupia y símbolos alquímicos amás d'ampliaciones de los atributos de los caráuteres y otros cambeos normativos y algorítmicas.[18] |