Língua japonesa e computadores

Origem: Wikipédia, a enciclopédia livre.

O contato entre a língua japonesa e computadores foi imediato, porém mínimo, restrito, superficial e incomparavelmente menor que o contato entre a minimalista língua inglesa e os computadores IBM de escritório, que foram preparados para reconhecer e processar os caracteres do alfabeto inglês em sua integridade. Várias adaptações surgiram para preencher a lacuna entre os “alfabetos”, algumas comuns a variações do alfabeto romano, outras próprias de línguas que fazem uso de grande quantidade de caracteres, umas poucas exclusivas do japonês.

O inglês precisa apenas de sete dos oito bits da palavra de um byte para indexar os caracteres de seu alfabeto, enquanto que o japonês necessita da codificação de "byte duplo" ou multi-byte para indexar sete mil, doze mil ou mais caracteres para sua escrita ideográfica. Numa primeira abertura, o ASCII (American Standard Code for Information Interchange) de sete bits foi estendido em um bit para ser adaptado a escritas de origem latina, mas línguas com escritas diferentes também puderam usar o ASCII estendido. O japonês só foi incorporado numa etapa em que o processamento de textos está sendo expandido para processar textos multilingüe, ou seja, quando o processamento de textos passou a manusear palavras de 16 bits, ou “duplo byte”, ou ainda word.

A dificuldade mais aparente é a necessidade de transposição entre a escrita alfabética e a escrita ideográfica; problema menor é a que se relaciona à transliteração (ou romanização) que vem se desenvolvendo há vários séculos; há ainda o problema apresentado para indexação da grande quantidade de ideogramas, e problemas de inserção de textos ideográficos. E um problema ainda não muito bem resolvido: o da orientação dos textos, que no Japão é predominantemente na vertical.

A escrita ideográfica japonesa, tendo como mãe a escrita chinesa, está longe de ver finalizada sua indexação, entretanto a indexação dos ideogramas já alcançou um estágio em que a familiaridade que o japonês tem com eles é equiparável ao que o japonês tem, por exemplo, com alfabeto cirílico, que o JIS incorporou numa de suas padronizações.

[editar] Indexação de caracteres

O padrão ASCII de sete bits abrangendo as vinte e seis letras do alfabeto inglês tinha uma correspondência biunívoca com o romaji da escrita japonesa.

Em 1981 a IBM estendeu o código ASCII para oito bits, abrindo caminho para a codificação plena da escrita de línguas latinas, nórdicas, eslávicas e do oriente médio, e a língua japonesa foi contemplada com a inclusão de algumas dezenas de caracteres katakana. O JIS (Japanese Industrial Standards) para o código de oito bits é o JIS C 6220 de 1969 (mais tarde JIS X 0201). Com esse código carregado na memória, os computadores possibilitavam a escrita de e-mails diretamente pelo teclado, embora precariamente.

Um conjunto de cerca de dois mil caracteres é recomendado para o ensino médio no Japão e para a tipografia oficial. Para efeitos práticos, um conjunto parcial de sete mil caracteres é considerado bastante satisfatório para a língua escrita japonesa. É o quanto contêm as padronizações mais conhecidas: JIS C 6226 (mais tarde JIS X 0208), o Shift_JIS da empresa norte americana Microsoft, o EUC (Extended UNIX code) que nomeou como EUC-JP.

O EUC-JP forneceu a base para o desenvolvimento do JWP de Stephen Chung (um processador de textos japonês para ocidentais). O JWP trazia embutido suas próprias fontes bitmapeadas para visualização na tela e outras fontes para impressão. Já a codificação Shift_JIS tem sido mais empregada na segunda metade da década de 90, para visualização de páginas web em plataforma Windows, ao lado do EUC-JP que também tem sido empregada com esse fim, mas em plataforma UNIX.

Em 1993 surgiu a primeira versão do Unicode como resultado de um consórcio sem interesses financeiros, independente de plataforma operacional, programas, línguas ou países. A versão 1 inclui o japonês ao lado de outras línguas ocidentais, asiáticas e do oriente médio. O Unicode possibilita o processamento de textos multilingüe mas, por ora, tem sido muito empregado em versões simplificadas de acordo com a conveniência e finalidade do programa que o requisita. Uma variação do Unicode, o UTF-8, é empregada na Wikipédia, mas variações simplificadas do Unicode são usadas mais comumente.

[editar] Inserção de textos em japonês

A entrada de textos em romaji é direta, de vez que o romaji corresponde 100% ao alfabeto inglês. A entrada de kanas (hiraganas e katakanas) é feita pelo teclado padrão JIS X 6002 que permite a digitação de hiraganas e katakanas alternativamente ao romaji. O teclado japonês segue o padrão QWERTY das máquinas de escrever tipo Remington.

Outra forma de introdução de hiraganas e katakanas é através de um teclado ASCII americano assistido por um sistema de transliteração (geralmente o sistema Hepburn) que transforma os toques de teclado em caracteres do silabário japonês.

A escrita ideográfica japonesa usa milhares de caracteres. A introdução de kanjis é feita por pelo digitador que transpõe o hiragana para o kanji apropriado selecionando o caracter correto em meio a outras (normalmente seis).

Um front end conhecido como IME (input method editor) foi embutido no sistema operacional Windows XP em 2003. Este IME permite também a inserção através de escrita à mão (handwriting) numa mesa digitalizadora ou tela sensível ao toque. Também possibilita a entrada através da vocalização do texto em dictation.

[editar] Transliteração

Há dois sistemas principais de romanização de japonês, conhecidos como Kunrei-shiki e o sistema Hepburn. O sistema Hepburn (também conhecido como Hebon-shiki), foi criado no século XIX e é o sistema incorporado por processadores de texto ocidentais, a exemplo do JWP, para escrever japonês em alfabeto romano. A pronúncia seguida pelo sistema Hepburn é uma mescla de consoantes pronunciados à inglesa e de vogais pronunciados à latina.

A romanização pelo sistema Kunrei-shiki, criada no Japão, difere pouco do sistema Hepburn.

[editar] Fontes de tipos

De modo oposto à escrita alfabética, a escrita ideográfica oferece poucas opções de tipos. Enquanto um processador de textos em alfabeto romano pode oferecer milhares de tipos para o usuário, o conjunto de caracteres ideográficos é demasiado denso para ter a mesma oferta de tipos. Isto é tanto mais verdadeiro quanto mais a padronização JIS avança na codificação integrando mais e mais caracteres.

O JWP utiliza imagens de fontes por ser mais antiga; o JWPce (mais recente) usa fontes true type escaláveis. Na versão de fontes true type costuma-se ter à disposição fontes do tipo “com serifas” e “sem serifas”.

A pouca diversidade de fontes é aceitável na produção de pequenas tiragens (hardcopy) em impressora própria ou na apresentação de páginas web, mas é um tanto frustrante para um designer.

[editar] Direção do texto

O japonês tem dois sentidos de escrita, chamados yokogaki e tategaki. O estilo yokogaki é o mesmo que o inglês, mas o estilo tategaki envolve colunas de texto escritas verticalmente, empilhados da direita para a esquerda.

Atualmente, manuseio de textos em escrita vertical é incompleto. Por exemplo, HTML não tem suporte para tategaki e o designer japonês usa tabelas HTML para simulá-lo. Entretanto, CSS nível 3 inclui uma propriedade "writing-mode" que pode renderizar tategaki quando se dá um valor "tb-rl" (i.e. de cima para baixo, direita para esquerda). Processadores de texto e software DTP (desktop publisher) têm suporte mais completo para isso.

[editar] Ver também

[editar] Ligações externas

See also ebooksgratis.com: no banners, no cookies, totally FREE.

Língua japonesa e computadores

Origem: Wikipédia, a enciclopédia livre.

Índice

[editar] Indexação de caracteres

[editar] Inserção de textos em japonês

[editar] Transliteração

[editar] Fontes de tipos

[editar] Direção do texto

[editar] Ver também

[editar] Ligações externas

Views

Navegação

colaboração

Busca

Outras línguas