Shift JIS


Shift JIS
MIME / IANA Shift_JIS
Nome alternativo MS_Kanji[1]
Linguagens Principalmente japonês, mas com suporte também para inglês e russo
Padrão JIS X 0208:1997 Apêndice 1
Classificação ISO/IEC 646 estendido,[a] codificação de largura variável e codificação CJK
Estende / amplia Formato JIS X 0201 de 8 bits
Transforma / codifica JIS X 0208
Sucedido por Shift_JIS-2004 (JIS)
Windows-31J (web)
  1. Não no sentido mais estrito do termo, pois os bytes ASCII podem aparecer como bytes de trilha.

O Shift JIS (do inglês shift japanese industrial standards, também SJIS, nome MIME Shift_JIS) é uma codificação de caracteres para o idioma japonês, originalmente desenvolvido por uma empresa japonesa chamada ASCII Corporation em conjunto com a Microsoft e padronizado como JIS X 0208 Apêndice 1. Em fevereiro de 2021, 0,1% de todas as páginas da web usavam o Shift JIS, uma queda de 1,3% em julho de 2014.[2]

Os sites japoneses têm a menor adoção de unicode, depois dos sites sul-coreanos (onde o EUC-KR é muito mais popular). O UTF-8 é usado apenas para 91,3% dos sites (o restante é Shift JIS e EUC-JP).[3][4]

O Shift JIS é baseado em conjuntos de caracteres definidos dentro dos padrões (JIS) JIS X 0201:1997 (para os caracteres de byte único) e JIS X 0208:1997 (para os caracteres de byte duplo). Os bytes iniciais para os caracteres de byte duplo são "deslocados" em torno dos 64 caracteres katakana de meia largura no intervalo de byte único 0xA1 para 0xDF. Os caracteres de byte único 0x00 à 0x7F correspondem à codificação ASCII, exceto por um sinal iene (U+00A5) em 0x5C e um sobrelinhado (U+203E) em 0x7E, respectivamente, no lugar da barra invertida e do til do conjunto de caracteres ASCII. Os caracteres de byte único de 0xA1 à 0xDF são mapeados para os caracteres katakana de meia largura encontrados no JIS X 0201.

HTML escrito em Shift JIS ainda pode ser interpretado até certo ponto quando incorretamente marcado como ASCII e quando a tag charset está no topo do próprio documento (desde que o início e fim de tags importantes, campos HTML, <,>, /, ", &, e ; sejam codificados pelos mesmos bytes únicos que em ASCII e esses bytes não apareçam em sequências de dois bytes. É possível usar o Shift JIS em strings literais de linguagens de programação como C, mas algumas coisas devem ser levadas em consideração. Em primeiro lugar, o caractere de escape 0x5C, normalmente barra invertida, é o sinal de iene (¥) de meia largura em Shift JIS. Se o programador estiver ciente disso, seria possível usar printf ("ハローワールド¥n"); (onde ハローワー ルド é o programa "Hello, World!" e ¥n é uma sequência de escape), assumindo que o sistema de E/S suporte a saída Shift JIS. Em segundo lugar, o byte 0x5C causará problemas ao aparecer como segundo byte de um caractere de dois bytes, pois será interpretado como uma sequência de escape e atrapalhará a interpretação ( a não ser que seja seguido por outro 0x5C).

O Shift JIS requer um meio 8 bits compatível para transmissão e é totalmente retrocompatível com a codificação de byte único JIS X 0201 de legado (o que significa que suporta katakana de meia largura e qualquer string JIS X 0201 válida também é uma string Shift JIS válida). Para caracteres de dois bytes, entretanto, o Shift JIS garante apenas que o primeiro byte será o bit alto definido (0x80 à 0xFF). O valor do segundo byte pode ser alto ou baixo. O aparecimento de valores de byte 0x40 à 0x7E, como segundos bytes de palavras de código, dificulta a detecção confiável de Shift JIS porque os mesmos códigos são usados para caracteres ASCII. Como o mesmo valor de byte pode ser o primeiro ou o segundo byte, as pesquisas de strings são difíceis (pois pesquisas simples podem corresponder ao segundo byte de um caractere e ao primeiro byte do próximo, que não é um caractere real). Algoritmos de pesquisa de strings para Shift JIS devem ser feitos sob medida.

Por outro lado, o formato concorrente de 8 bits EUC-JP, que não oferece suporte a katakana de meia largura de byte único, permite uma conversão muito mais limpa e direta de e para pontos de código JIS X 0208, pois todos os bytes de conjunto de bits altos são partes de um caractere de byte duplo e todos os códigos do intervalo ASCII representam caracteres de byte único.

O unicode também não tem algumas das desvantagens do Shift JIS. O unicode não tem versões ambíguas pois novos caracteres são atribuídos à lugares não utilizados por uma única organização. As áreas de uso privado são claramente designadas, nunca serão usadas para caracteres padrão e raramente são necessárias devido à abrangente natureza do unicode. Para o Shift JIS, as empresas trabalham em paralelo. O unicode codificado com UTF-8 é compatível com as versões anteriores de ASCII também para 0x5C e não tem o problema de pesquisa de strings.

Para uma sequência JIS de byte duplo ,[5] a transformação para os bytes Shift JIS correspondentes é:

Múltiplas versões

[editar | editar código-fonte]

Existem muitas versões diferentes do Shift JIS. Existem duas áreas para expansão:

Em primeiro lugar, o JIS X 0208 não preenche todo o espaço 94 × 94 codificado para ele no Shift JIS, portanto, há espaço para mais caracteres (eles são, na verdade, extensões do JIS X 0208 e não do próprio Shift JIS).

Em segundo lugar, o Shift JIS tem mais espaço de codificação do que o necessário para o JIS X 0201 e o JIS X 0208 (consulte o § mapa de bytes Shift JIS abaixo), e este espaço pode e é usado para ainda mais caracteres.

Windows-932 / Windows-31J

[editar | editar código-fonte]

A extensão mais popular é a página de código 932 do Windows (a CCSID também usada para extensão para Shift JIS da IBM), que está registrada na IANA como "Windows-31J", [1] separadamente do Shift JIS. Isso foi popularizado pela Microsoft, embora a própria Microsoft não reconheça o nome Windows-31J e, em vez disso, chame essa variação de "shift_jis".[6][7] A página de código 943 da IBM inclui os mesmos códigos de byte duplo que a página de código 932 da Microsoft, enquanto a página de código 932 da IBM inclui menos extensões (excluindo aquelas que a Microsoft incorpora da NEC) e mantém a ordem dos caracteres da edição de 1978 do JIS X 0208, em vez de implementar as trocas de variantes de caracteres do padrão de 1983.[8]

O Windows-31J atribui o 0x5C à U+005C REVERSE SOLIDUS (a barra invertida) e 0x7E à U+007E til, seguindo o US-ASCII.[9] No entanto, a maioria das fontes localizadas no Windows exibem o U+005C como um sinal de iene (para compatibilidade com o JIS X 0201).[10][11] Ele inclui várias extensões, nomeadamente "caracteres especiais NEC (linha 13), seleção NEC de extensões IBM (linhas 89 à 92) e extensões IBM (linhas 115 à 119)",[1] além de deixar algum espaço de codificação de lado para definição do usuário final.[12]

A página de códigos 932 do Windows é a versão usada no padrão de codificação W3C/WHATWG usado por HTML5, que inclui as "extensões anteriormente proprietárias da IBM e NEC" do Windows-31J em sua tabela para JIS X 0208[13] e também trata o rótulo "shift_jis" de forma intercambiável com "windows-31j" com a intenção de ser "compatível com o conteúdo implantado".[14]

A versão do Shift-JIS originada do Mac OS clássico (conhecida como x-mac-japanese, página de código 10001 [6] ou MacJapanese) atribuída a til para 0x7E (seguindo o US-ASCII, não JIS X 0201 que atribui o sobrelinhado aqui), mas o sinal de iene para 0x5C (como em JIS X 0201 e Shift JIS padrão). Ela também estendeu o JIS X 0201 atribuindo a barra invertida à 0x80 (correspondendo à 0x5C em US-ASCII), o espaço sem quebra à 0xA0, o símbolo de direitos autorais à 0xFD, o símbolo de marca comercial para 0xFE e as reticências horizontais de meia largura para 0xFF. Ela também adicionou caracteres de byte duplo estendidos (incluindo 53 formas de apresentação vertical no intervalo Shift_JIS 0xEB41 à 0xED96 em 84 linhas JIS abaixo de seus formulários canônicos e 260 caracteres especiais no intervalo Shift_JIS 0x8540 à 0x886D.[15] Esta variante foi introduzida no KanjiTalk versão 7.[16]

No entanto, alguns tipos de letra do Mac OS usavam outras variantes. Sai Mincho e Chu Gothic usam uma variante "PostScript" do MacJapanese, que incluía formas de apresentação vertical adicionais e um conjunto diferente de caracteres especiais estendidos, com base nos caracteres especiais NEC, alguns dos quais estavam disponíveis apenas nas versões das fontes para impressora.[15] Versões mais antigas de Maru Gothic e Hon Mincho do Sistema 7.1 codificavam formas de apresentação vertical em 10 (não 84) linhas JIS abaixo de suas formas canônicas e não incluíam as extensões de caracteres especiais, isso foi posteriormente alterado.[15][17] A variante típica usada com o KanjiTalk versão 6 posicionou os formulários de apresentação vertical 10 linhas abaixo e também usou o layout de extensão NEC para a linha 13.[18]

Shift_JISx0213 e Shift_JIS-2004

[editar | editar código-fonte]
Shift_JIS-2004
Nome alternativo Shift_JISx0213
Linguagens (idiomas) Japonês, ainu, inglês, russo
Padrão JIS X 0213
Estende (amplia) Shift_JIS (1997),
JIS X 0201 (8-bit)
Transforma / codifica JIS X 0213
Precedido por Shift_JIS (1997)

O padrão JIS X 0213 mais recente define uma variante estendida de Shift_JIS conhecida como Shift_JISx0213 (em uma versão anterior do padrão) ou Shift_JIS-2004. É um superconjunto do Shift JIS padrão.[19]

Para representar as linhas alocadas em ambos os planos de JIS X 0213, Shift_JIS-2004 usa o seguinte método de mapeamento de pontos de código.[20]

Acima, é uma sequência Shift_JIS-2004 de dois bytes, é o número do plano (面 - men)(1 ou 2), é o número da linha (区 - ku) (1-94) e é o número da célula (ou ponto) (点 - ten) (1-94). Os números ku e ten são, respectivamente, equivalentes à e , onde é uma sequência JIS de dois bytes referenciando um determinado plano.

O mesmo conjunto de caracteres pode ser representado por EUC-JIS-2004, a contraparte baseada em EUC-JP.

Algumas das adições entram em conflito com as extensões Shift JIS populares, incluindo a página de códigos 932 do Windows, que é usada em padrões da web (consulte acima). Por exemplo, compare o plano 1 linha 89 em JIS X 0213 (começando 硃, 硎, 硏…) com a linha 89 na variante JIS X 0208 definida em padrões da web (começando 纊, 褜, 鍈…).[21] Além disso, alguns dos caracteres são mapeados para caracteres unicode além do BMP.

Outras variantes

[editar | editar código-fonte]

O espaço com bytes iniciais 0xF5 à 0xF9 (além da região usada para JIS X 0208) é usado por operadoras japonesas de telefonia móvel (celular) para pictogramas para uso em e-mail.[22] A KDDI vai além e define mais centenas no espaço com os bytes principais 0xF3 e 0xF4.[23]

Além disso, houve inúmeras variações menores feitas no Shift JIS, com caracteres individuais alterados aqui e ali. A maioria dessas extensões e variantes não têm registro IANA, então há muito espaço para confusão, se as extensões forem usadas.

Uma variante é a que deve ser usada se quisermos codificar Shift JIS, no código-fonte, em strings de C e linguagens de programação semelhantes. Esta variante duplica o byte 0x5C se ele aparecer como um segundo byte de um caractere de dois bytes, mas não se ele aparecer como um único caractere "¥" (ASCII: "\"), porque 0x5C é o início de uma sequência de escape. A melhor maneira de lidar com isso é um editor especial que codifica o Shift JIS dessa maneira.

Mapa de bytes Shift JIS

[editar | editar código-fonte]

Conforme definido em JIS X 0208:1997

[editar | editar código-fonte]

O gráfico abaixo fornece o significado detalhado de cada byte em um fluxo codificado no Shift JIS padrão (em conformidade com JIS X 0208:1997).

Primeiro byte
0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
2 ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ ¥ ] ^ _
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | }
8
9
A
B ソ
C
D
E
F
Segundo byte
0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
 
Caractere ASCII não imprimível
Caractere ASCII inalterado
Caractere ASCII modificado
Katakana de meia largura de byte único
Primeiro byte de um caractere de byte duplo JIS X 0208
Não utilizado como primeiro byte de um caractere JIS X 0208
Segundo byte de um caractere de byte duplo JIS X 0208 cuja primeira metade da sequência JIS era estranha
Segundo byte de um caractere de byte duplo JIS X 0208 cuja primeira metade da sequência JIS foi uniforme
Não utilizado como segundo byte de um caractere JIS X 0208

Com extensões de fornecedor ou JIS X 0213

[editar | editar código-fonte]

Alguns dos bytes que não são usados para códigos de byte único ou bytes iniciais em JIS X 0208:1997 são usados por certas extensões, resultando no layout detalhado no gráfico abaixo.

Primeiro byte
0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
2 ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ ¥ ] ^ _
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | }
8
9
A
B ソ
C
D
E
F
Segundo byte
0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
 
Caractere ASCII não imprimível
Caractere ASCII inalterado
Caractere ASCII modificado
Katakana de de meia largura de byte único
Primeiro byte de um caractere de byte duplo, usado por JIS X 0208 (e por extensões, como JIS X 0213 plano 1)
Primeiro byte de um caractere de byte duplo, não alocado em JIS X 0208, mas usado por JIS X 0213 plano 1 ou por extensões de fornecedor
Primeiro byte de um caractere de byte duplo além de JIS X 0208, usado para JIS X 0213 plano 2 ou para extensões não relacionadas
Não usado como primeiro byte, usado por algumas extensões de byte único
Segundo byte de um caractere de byte duplo cuja primeira metade da sequência JIS era estranha
Segundo byte de um caractere de byte duplo cuja primeira metade da sequência JIS foi uniforme
Não utilizado como segundo byte de um caractere de byte duplo

Referências

  1. a b c «Conjuntos de caracteres». IANA 
  2. «Tendências históricas no uso de codificações de caracteres para sites, fevereiro de 2021». w3techs.com. Consultado em 11 de fevereiro de 2021 
  3. «Distribuição de codificações de caracteres entre sites que usam .jp». w3techs.com. Consultado em 9 de julho de 2020 
  4. «Distribuição de codificações de caracteres entre sites que usam japonês». w3techs.com. Consultado em 3 de julho de 2020 
  5. j1 e j2 estão, cada um, no intervalo de 33 (0x21) à 126 (0x7e). Ou seja, valores de caracteres de 7 bits, excluindo caracteres de controle, del e espaço (respectivamente 0 (0x00) à 31 (0x1f), 127 (0x7f) e 32 (0x20).
  6. a b «Propriedade Encoding.WindowsCodePage - .NET Framework (versão atual)». MSDN. Microsoft 
  7. «Identificadores de página de código». Centro de desenvolvimento do Windows. Microsoft 
  8. «IBM-943 e IBM-932». Centro de conhecimento IBM. IBM 
  9. «CP932.TXT». Unicode Consortium 
  10. «3.1.1 Detalhes de problemas». Problemas e soluções para caracteres Unicode e caracteres definidos pelo usuário/fornecedor. O grupo aberto Japão. Cópia arquivada em 3 de fevereiro de 1999 
  11. Kaplan, Michael S. (17 de setembro de 2005). «Quando uma barra invertida não é uma barra invertida?» 
  12. Kaplan, Michael S (26 de maio de 2007). «O PUA fora do unicode». Resolvendo tudo 
  13. «5. Índices (§ Índice jis0208)». Padrão de codificação. WHATWG 
  14. «4.2. Nomes e rótulos». Padrão de codificação. WHATWG 
  15. a b c «JAPANESE.TXT: Mapa (versão externa) da codificação japonesa do Mac OS para unicode 2.1 e posterior.». Apple Computer, Inc.; Unicode Consortium 
  16. Lunde, Ken (21 de março de 2019). «Uma breve história das ligaduras de nomes da era do Japão». CJK Type Blog. Adobe Inc 
  17. «Variantes de codificação para MacJapanese». Documentação de desenvolvedor Apple. Apple 
  18. Lunde, Ken (2008). «Apêndice E: Padrões do conjunto de caracteres do fornecedor» (PDF). ISBN 9780596514471. O'Reilly Media. Processamento de informação CJKV 
  19. «Tabelas de mapeamento de código JIS X 0213». x0213.org 
  20. «JIS X 0213の代表的な符号化方式 § Shift_JIS-2004» (em japonês)  Números hexadecimais na fonte foram convertidos em decimais para exibição.
  21. «Visualização do índice jis0208». Padrão de codificação. WHATWG 
  22. «Emoji originais da DoCoMo». FileFormat.info 
  23. «Emoji originais da KDDI». FileFormat.info 

Ligações externas

[editar | editar código-fonte]