Língua japonesa e computadores
Origem: Wikipédia, a enciclopédia livre.
O contato entre a língua japonesa e computadores foi imediato, porém mínimo, restrito, superficial e incomparavelmente menor que o contato entre a minimalista língua inglesa e os computadores IBM de escritório, que foram preparados para reconhecer e processar os caracteres do alfabeto inglês em sua integridade. Várias adaptações surgiram para preencher a lacuna entre os “alfabetos”, algumas comuns a variações do alfabeto romano, outras próprias de línguas que fazem uso de grande quantidade de caracteres, umas poucas exclusivas do japonês.
O inglês precisa apenas de sete dos oito bits da palavra de um byte para indexar os caracteres de seu alfabeto, enquanto que o japonês necessita da codificação de "byte duplo" ou multi-byte para indexar sete mil, doze mil ou mais caracteres para sua escrita ideográfica. Numa primeira abertura, o ASCII (American Standard Code for Information Interchange) de sete bits foi estendido em um bit para ser adaptado a escritas de origem latina, mas línguas com escritas diferentes também puderam usar o ASCII estendido. O japonês só foi incorporado numa etapa em que o processamento de textos está sendo expandido para processar textos multilingüe, ou seja, quando o processamento de textos passou a manusear palavras de 16 bits, ou “duplo byte”, ou ainda word.
A dificuldade mais aparente é a necessidade de transposição entre a escrita alfabética e a escrita ideográfica; problema menor é a que se relaciona à transliteração (ou romanização) que vem se desenvolvendo há vários séculos; há ainda o problema apresentado para indexação da grande quantidade de ideogramas, e problemas de inserção de textos ideográficos. E um problema ainda não muito bem resolvido: o da orientação dos textos, que no Japão é predominantemente na vertical.
A escrita ideográfica japonesa, tendo como mãe a escrita chinesa, está longe de ver finalizada sua indexação, entretanto a indexação dos ideogramas já alcançou um estágio em que a familiaridade que o japonês tem com eles é equiparável ao que o japonês tem, por exemplo, com alfabeto cirílico, que o JIS incorporou numa de suas padronizações.
Índice |
[editar] Indexação de caracteres
O padrão ASCII de sete bits abrangendo as vinte e seis letras do alfabeto inglês tinha uma correspondência biunívoca com o romaji da escrita japonesa.
Em 1981 a IBM estendeu o código ASCII para oito bits, abrindo caminho para a codificação plena da escrita de línguas latinas, nórdicas, eslávicas e do oriente médio, e a língua japonesa foi contemplada com a inclusão de algumas dezenas de caracteres katakana. O JIS (Japanese Industrial Standards) para o código de oito bits é o JIS C 6220 de 1969 (mais tarde JIS X 0201). Com esse código carregado na memória, os computadores possibilitavam a escrita de e-mails diretamente pelo teclado, embora precariamente.
Um conjunto de cerca de dois mil caracteres é recomendado para o ensino médio no Japão e para a tipografia oficial. Para efeitos práticos, um conjunto parcial de sete mil caracteres é considerado bastante satisfatório para a língua escrita japonesa. É o quanto contêm as padronizações mais conhecidas: JIS C 6226 (mais tarde JIS X 0208), o Shift_JIS da empresa norte americana Microsoft, o EUC (Extended UNIX code) que nomeou como EUC-JP.
O EUC-JP forneceu a base para o desenvolvimento do JWP de Stephen Chung (um processador de textos japonês para ocidentais). O JWP trazia embutido suas próprias fontes bitmapeadas para visualização na tela e outras fontes para impressão. Já a codificação Shift_JIS tem sido mais empregada na segunda metade da década de 90, para visualização de páginas web em plataforma Windows, ao lado do EUC-JP que também tem sido empregada com esse fim, mas em plataforma UNIX.
Em 1993 surgiu a primeira versão do Unicode como resultado de um consórcio sem interesses financeiros, independente de plataforma operacional, programas, línguas ou países. A versão 1 inclui o japonês ao lado de outras línguas ocidentais, asiáticas e do oriente médio. O Unicode possibilita o processamento de textos multilingüe mas, por ora, tem sido muito empregado em versões simplificadas de acordo com a conveniência e finalidade do programa que o requisita. Uma variação do Unicode, o UTF-8, é empregada na Wikipédia, mas variações simplificadas do Unicode são usadas mais comumente.
[editar] Inserção de textos em japonês
A entrada de textos em romaji é direta, de vez que o romaji corresponde 100% ao alfabeto inglês. A entrada de kanas (hiraganas e katakanas) é feita pelo teclado padrão JIS X 6002 que permite a digitação de hiraganas e katakanas alternativamente ao romaji. O teclado japonês segue o padrão QWERTY das máquinas de escrever tipo Remington.
Outra forma de introdução de hiraganas e katakanas é através de um teclado ASCII americano assistido por um sistema de transliteração (geralmente o sistema Hepburn) que transforma os toques de teclado em caracteres do silabário japonês.
A escrita ideográfica japonesa usa milhares de caracteres. A introdução de kanjis é feita por pelo digitador que transpõe o hiragana para o kanji apropriado selecionando o caracter correto em meio a outras (normalmente seis).
Um front end conhecido como IME (input method editor) foi embutido no sistema operacional Windows XP em 2003. Este IME permite também a inserção através de escrita à mão (handwriting) numa mesa digitalizadora ou tela sensível ao toque. Também possibilita a entrada através da vocalização do texto em dictation.
[editar] Transliteração
Há dois sistemas principais de romanização de japonês, conhecidos como Kunrei-shiki e o sistema Hepburn. O sistema Hepburn (também conhecido como Hebon-shiki), foi criado no século XIX e é o sistema incorporado por processadores de texto ocidentais, a exemplo do JWP, para escrever japonês em alfabeto romano. A pronúncia seguida pelo sistema Hepburn é uma mescla de consoantes pronunciados à inglesa e de vogais pronunciados à latina.
A romanização pelo sistema Kunrei-shiki, criada no Japão, difere pouco do sistema Hepburn.
[editar] Fontes de tipos
De modo oposto à escrita alfabética, a escrita ideográfica oferece poucas opções de tipos. Enquanto um processador de textos em alfabeto romano pode oferecer milhares de tipos para o usuário, o conjunto de caracteres ideográficos é demasiado denso para ter a mesma oferta de tipos. Isto é tanto mais verdadeiro quanto mais a padronização JIS avança na codificação integrando mais e mais caracteres.
O JWP utiliza imagens de fontes por ser mais antiga; o JWPce (mais recente) usa fontes true type escaláveis. Na versão de fontes true type costuma-se ter à disposição fontes do tipo “com serifas” e “sem serifas”.
A pouca diversidade de fontes é aceitável na produção de pequenas tiragens (hardcopy) em impressora própria ou na apresentação de páginas web, mas é um tanto frustrante para um designer.
[editar] Direção do texto
O japonês tem dois sentidos de escrita, chamados yokogaki e tategaki. O estilo yokogaki é o mesmo que o inglês, mas o estilo tategaki envolve colunas de texto escritas verticalmente, empilhados da direita para a esquerda.
Atualmente, manuseio de textos em escrita vertical é incompleto. Por exemplo, HTML não tem suporte para tategaki e o designer japonês usa tabelas HTML para simulá-lo. Entretanto, CSS nível 3 inclui uma propriedade "writing-mode" que pode renderizar tategaki quando se dá um valor "tb-rl" (i.e. de cima para baixo, direita para esquerda). Processadores de texto e software DTP (desktop publisher) têm suporte mais completo para isso.