Unikodas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

Unikodas (angl. Unicode) – standartas, apibrėžiantis beveik visų kalbų abėcėlių bei papildomų simbolių kodavimą kompiuteriuose. Unikodas sukurtas siekiant pakeisti anksčiau naudotus įvairius ribotus simbolių kodavimus. Pirmoji standarto versija (1.0) sukurta 1995 metais, 2005 metais paskelbta jau 4.1 versija. Šiuo metu Unikodas yra dominuojantis standartas pritaikant kompiuterines programas daugeliui kalbų. Unikodas palaikymas numatytas moderniuose standartuose (kaip XML), programavimo kalbose bei operacinėse sistemose.

Unikode kiekviena pozicija atitinka tik vieną konkretų simbolį, tačiau kai kuriais atvejais vienam simboliui skiriama keletas pozicijų. Pirmosios 256 pozicijos yra identiškos ISO 8859-1 kodavimo simboliams, kad būtų paprastesnis keitimas iš egzistuojančių Vakarų Europos kalbų tekstų. Unikodo standarte numatyti ne tik raidės ir simboliai, bet ir pagalbiniai kodai nusakyti simbolio savybėms, teksto krypčiai bei kitoms reikmėms.

Unikode numatyti ir kombinaciniai simboliai, kai vienas vaizduojamas simbolis koduojamas dviem simboliais. Pavyzdžiui, kirčiuota a (á) užrašoma dviem Unikodo simboliais (U+0061 ir U+0301). Raidės su diakritiniais ženklais gali būti užrašomos vienu simboliu, tačiau galima jas taip pat galima rašyti kombinuojant lotynišką raidę ir diakritinio ženklo simbolį, išlaikant suderinamumą su senesnėm programom, nevaizduojančiom diakritinių ženklų.

[taisyti] Apimtis

Unikodas apima beveik visas šiuo metu naudojamas rašto sistemas. Kai kurios jų:

Arabų
Armenian
Bengalų
Brailio raštas
Kanados aborigenų silabika
Šerokė
Koptų
Kirilica
Devanāgarī
Etiopijos
Gruzinų

Graikų
Gujarati
Gurmukhi
Hangul (Korėjiečių)
Han (Kanji, Hanja, Hanzi)
Japonų (Kanji, Hiragana, Katakana)
Hebrajų
Khmerų (Kambodža)
Kannada
Lao
Lotynų

Malayalam
Mongolų
Mjanmų
Orija
Sirijakų
Tamilų
Thai
Tibetiečių
Yi
Zhuyin (Bopomofo)

Taip pat Unikode pridėti ir nemažai papildomų simbolių, istorinių bei išnykusių rašto sistemų (Senovės graikų, Egiptiečių bei Majų hieroglifai, Finikiečių bei Šumerų abėcėlės, Runos).

Be to, naudojami ir matematiniai bei muzikiniai simboliai, numatytos vietos ateityje pridedamoms rašto sistemoms bei asmeniniam naudojimui.

[taisyti] Darbas su Unikodu

Pats Unikodo standartas tik numato konkrečias pozicijas įvairiems simboliams, bet ne realų kodavimą fizinėje atmintyje. Yra sukurta keletas Unikodo įgyvendinimo mechanizmų, kurių vieni pritaikyti taupesniam saugojimui, kiti – suderinamumui su senomis koduotėmis ar sistemomis. Yra naudojamos kelios UTF (Unicode Transformation Format) ir UCS (Universal Character Set) koduotės:

UTF-7 – pasenusiu laikomas ir retai naudojamas 7 bitų kodavimas
UTF-8 – 8 bitų kintamo ilgio kodavimas
UCS-2 – 16 bitų fiksuoto ilgio kodavimas. Palaiko 65 535 simbolių iš daugiau nei 90 000 numatytų
UTF-16 – 16 bitų kintamo ilgio kodavimas
UCS-4 ir UTF-32 – identiški 32 bitų fiksuoto ilgio kodavimai
UTF-EBCDIC – nepopuliarus kodavimas, sukurtas EBCDIC sistemoms

UTF-32 ir UCS-4 kodavimai yra netaupūs, bet labai paprasti – jais galima užkoduoti bet kurį Unikodo simbolį kiekvienam skiriant 32 bitus. UTF-8 kodavime naudojama nuo 1 iki 4 baitų, šis kodavimas yra suderinamas su ASCII bei yra labai taupus, jei naudojama daugiausiai tik lotynų abėcėlės pagrindo rašto sistemos.

[taisyti] Kritika

Unikodo kritikų (daugiausiai Japonijoje) požiūriu, standartas per daug supaprastina azijietiškas rašto sistemas, nepalaiko senesnių ar alternatyvių kandži simbolių. Taip pat yra teigiančių, kad Unikodas palaiko per mažai simbolių. Kritikuota ir nelogiška Thai simbolių eilės tvarka. Tačiau standarto versijoje 2.0 panaikinus 65 535 simbolių apribojimą, vien dabar jau numatyta iki 1114111 simbolių, pridėta papildomų azijietiškų rašto ženklų, todėl dalis kritikos jau nėra aktuali.

Kategorija: Standartai

See also ebooksgratis.com: no banners, no cookies, totally FREE.

Unikodas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

[taisyti] Apimtis

[taisyti] Darbas su Unikodu

[taisyti] Kritika

Views

Naršymas

Paieška

Kitomis kalbomis