Automatinis vertimas

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

Automatinis vertimas yra skaičiuojamosios lingvistikos sritis, kuri tiria kompiuterinės įrangos panaudojimą versti tekstą iš vienos natūralios kalbos į kitą. Paprasčiausioje formoje automatinis vertimas tiesiog atlieka vienos natūralios kalbos žodžių keitimą kitos kalbos žodžiais. Naudojant įvairių technikų rinkinius galima bandyti sudėtingesnius vertimus, apimant skirtingas lingvistines tipologijas, frazių atpažinimą, idiomų vertimą bei anomalijų izoliaciją.

Šiuolaikinė automatinio vertimo programinė įranga dažnai leidžia nurodyti verčiamo teksto sritį ar profesiją (pvz., oro prognozės), taip sumažinant galimų keitimų sritį ir pagerinant rezultatą. Tokia technika ypač efektyvi tose srityse, kurioms būdinga formali ar šabloniška kalba. Todėl automatinis vertimas labiau tinkamas versti valstybinius ar teisinius dokumentus, nei pokalbius ar mažai standartizuotą tekstą.

Pagerinti rezultatų kokybę taip pat galima įsikišant žmogui – kai kurios sistemos verčia tekstą daug tiksliau, jei vartotojas aiškiai pažymi, kurie žodžiai tame tekste yra pavadinimai. Naudojant šias technikas įrodyta automatinio vertimo nauda asistuojant vertėjams ir kai kuriais atvejais net pilnai panaudojant jų pateiktą rezultatą. Visgi tokios sistemos dar negali pateikti tokio pat rezultato, kaip žmogus vertėjas, ypač kai verčiamas tekstas yra kasdieninė kalba.

Turinys

1 Įvadas
2 Požiūriai
3 Esminiai klausimai
- 3.1 Dviprasmiškumo pašalinimas
4 Istorija
5 Taikomosios programos
6 Įvertinimas
7 Nuorodos
- 7.1 Anglų <-> lietuvių
- 7.2 Daugiakalbės vertyklės

[taisyti] Įvadas

Vertimo procesas gali būti apibrėžtas kaip:

Pirminio teksto prasmės iššifravimas;
Šios reikšmės perkodavimas į galutinę kalbą.

Už šios, tariamai paprastos procedūros, slypi sudėtinga pažinimo operacija. Kad iššifruotų pirminio teksto prasmę, vertėjas turi suprasti ir išanalizuoti visas teksto ypatybes, privalo gerai žinoti tos kalbos gramatiką, semantiką, sintaksę, idiomas ir t.t. bei kalbėtojų kultūrą. Tokias pat žinias vertėjas privalo turėti ir apie kalbą, į kurią verčia pirminį tekstą.

Čia ir glūdi automatinio vertimo iššūkis: kaip užprogramuoti kompiuterį, kad šis „suprastų“ tekstą kaip žmogus ir „sukurtų“ naują tekstą kita kalba, kuris „skambėtų“ taip, tarsi jį būtų parašęs žmogus.

Prie šios problemos prieiti galima keliais būdais.

[taisyti] Požiūriai

Automatinis vertimas gali naudoti metodą, paremtą lingvistinėmis taisyklėmis. Tai reiškia, kad žodžiai bus verčiami lingvistiniu būdu – patys tinkamiausi adresato kalbos žodžiai pakeičia atitinkamus žodžius pirminėje kalboje.

Dažnai diskutuojama dėl to, kad automatinio vertimo sėkmė priklauso nuo to ar pirmiausia bus išspręsta natūralios kalbos supratimo problema. Bendromis taisyklėmis paremti metodai išnagrinėja tekstą, dažniausiai sukurdami tarpinį, simbolinį vaizdą, iš kurio sugeneruojamas adresato kalbos tekstas. Pagal tarpinio vaizdo prigimtį, toks požiūris apibūdinamas kaip „vidinės kalbos automatinis vertimas“ arba „perkėlimu paremtas automatinis vertimas“. Šie metodai reikalauja plataus leksikono, turinčio morfologinės, semantinės ir sintaksinės informacijos bei didelio taisyklių rinkinį.

Gavusios pakankamai duomenų automatinio vertimo programos dažnai pakankamai gerai atlieka darbą ir pateikia artimą variantą to, kas buvo parašyta kita kalba. Sunkumas yra gauti pakankamai reikiamų duomenų padedančių atitinkamam metodui. Pavyzdžiui, didelis įvairiakalbis rinkinys duomenų, reikalingų statistiniams metodams, nebūtinas gramatika paremtiems metodams. Tačiau gramatiniai metodai reikalauja patyrusio lingvisto tiksliai sudaryti gramatikai, kurią jie naudoja.

Versti tarp labai panašių kalbų naudojama technika, vadinama paviršutiniško perdavimo automatiniu vertimu.

[taisyti] Paremtas žodynu

Automatinis vertimas gali naudoti metodą paremtą žodyno įrašais. Tai reiškia, kad žodžiai bus verčiami kaip žodyne – žodis po žodžio, dažniausiai be jokio prasminio jų susiejimo.

[taisyti] Statistinis

Statistinis automatinis vertimas bando sugeneruoti vertimus naudodamas statistinius metodus paremtus dvikalbio teksto rinkiniais. Jei tokie rinkiniai egzistuoja, pasiekiami nuostabūs rezultatai verčiant panašaus tipo tekstus. Tačiau tokių rinkinių dar labai mažai. Pirmoji statistinė automatinė vertimo programa buvo CANDIDE sukurta IBM. Šiuo metu Google naudoja SYSTRAN, bet ateityje siekia visas mašinas pervesti prie statistinio metodo. Neseniai jie pagerino savo vertimo galimybes įvesdami apie 200 milijardų žodžių iš Jungtinių Tautų šaltinių. Dėl to vertimo tikslumas smarkiai pagerėjo.

[taisyti] Paremti pavyzdžiais

Pavyzdžiais paremtas automatinio vertimo būdas dažnai apibūdinamas pagal dvikalbio rinkinio naudojimą veikimo metu. Pagrinde tai vertimas pagal analogijas ir gali būti laikomas atvejais paremtu automatinio vertimo variantu.

[taisyti] Vidinės kalbos

Vidinės kalbos automatinis vertimas yra vienas iš taisyklėmis paremtų automatinio vertimo variantų. Šiuo požiūriu pirminė kalba transformuojama į vidinę kalbą, o po to sugeneruojamas tekstas adresato kalba.

[taisyti] Esminiai klausimai

[taisyti] Dviprasmiškumo pašalinimas

Žodžio prasmės dviprasmiškumo pašalinimas reiškia tinkamo vertinio paiešką, kai žodis gali turėti daugiau nei viena reikšmę. Pirmą kartą šią problemą iškėlė Yehoshua Bar-Hillel 1950m. Jis pažymėjo, kad be „universalios enciklopedijos“ mašina niekada nesugebės atsirinkti tarp dviejų žodžio reikšmių. Šiais laikais sukurta daug metodų spręsti šiai problemai. Jie gali būti padalinti į paviršutiniškus ir gilius metodus.

Paviršutiniški metodai nekreipia dėmesio į teksto prasmę. Jie paprasčiausiai panaudoja statistinius metodus aplinkiniams žodžiams. Giluminiai metodai daro visapusišką žodžio prasmės prielaidą. Kol kas sėkmingiau naudojami paviršutiniški metodai.

[taisyti] Istorija

Automatinio vertimo istorija prasidėjo šeštajame dešimtmetyje. Džordžtauno eksperimentas (1954) apėmė visiškai automatizuotą daugiau nei 60 rusiškų sakinių vertimą į anglų kalbą. Eksperimentas buvo labai sėkmingas ir pradėjo automatinio vertimo tyrinėjimų finansavimo erą. Mokslininkai teigė, kad per 3-5 metus automatinis vertimas bus išspręsta problema. Tačiau tikrasis progresas buvo kur kas lėtesnis ir po ALPAC ataskaitos (1966), kuri parodė, kad dešimtmetį trukęs tyrimas nepateisino vilčių, finansavimas buvo smarkiai sumažintas. Devintajame dešimtmetyje, kai skaičiavimo galia padidėjo ir tapo pigesnė, vėl buvo skirta daugiau dėmesio statistiniams automatinio vertimo modeliams.

[taisyti] Taikomosios programos

Sukurta daug taikomųjų programų natūraliai kalbai versti, kai kurios veikia internete, kaip SYSTRAN sistema, kuria remiasi ir Google, ir AltaVista vertimų programos. Nors nei viena sistema negali pasigirti tobulu vertimu, daugelis jų pateikia tenkinamą rezultatą. Nepaisant jų paveldėtų apribojimų, automatinio vertimo programos naudojamos visame pasaulyje. Tikriausiai didžiausia institucija, naudojanti vieną tokių, yra Europos komisija. Jos poreikiams yra pritaikyta komercinė SYSTRAN sistemos versija, kuri gali automatiškai išversti didelius kiekius preliminarių dokumentų šablonų vidiniam naudojimui.

Viena JAV vertimo agentūra (Global Translations) kuria specialius žodynus automatiniam vertimui, sudarytus iš telekomunikacijų kompanijų pasiūlymų. Dėl didelio tokių dokumentų techninio žodyno lygio, kuris dažnai yra ir didelės apimties, automatinio vertimo kokybė gerėja proporcingai teksto rinkiniams, kurie įtraukiami į tuos žodynus.

Danų vertimo agentūra (Lingtech) verčia patentų paraiškas iš anglų kalbos į danų nuo 1993m. naudodama firminę taisyklėmis paremtą automatinio vertimo sistemą PaTrans, veikiančią kartu su komerciniu atmintimi paremtu vertimo įrankiu Trados CAT.

Ispanų dienraštis „Periodico de Catalunya“ yra verčiamas iš ispanų į katalonų kalbą naudojat automatinio vertimo sistemą. Internetinė programa „Toggletext“ naudoja perdavimais paremtą vertimo sistemą Kataku versti tarp anglų ir indoneziečių kalbų. Google tvirtina, kad gauti daug žadantys rezultatai naudojantis jų firminiu statistiniu automatinio vertimo varikliu. Jis buvo panaudotas Google kalbų įrankiuose verčiant tarp arabų – anglų ir kinų – anglų kalbų bei surinko 0,4281 balo, o tai daugiau nei IBM įrankis BLEU-4, kurio rezultatas tik 0,3954 balo, pasiektas Nacionaliniame Standartų ir Technologijų institute testų metu. Uwe Muegge sukūrė demonstracinį tinklapį, kuris naudoja kontroliuojamą kalbą kartu su Google įrankių, kad pateikti visiškai automatizuotą, aukštos kokybės jo angliškų, vokiškų ir prancūziškų tinklapių vertimą.

Daug dėmesio paskutiniu metu skiriant kovai su terorizmu, Jungtinės Valstijos investuoja didelius pinigus į natūralios kalbos inžineriją. Šiuo metu karinė valdžia domisi vertimu ir apdorojimu tokių kalbų kaip: arabų, pashto ir dari. Informacijos Apdorojimo Technologijų Biuras taiko tokias programas kaip TIDES ir „Babylon Translator“. Jungtinių Valstijų oro pajėgos skiria 1 milijono dolerių kontraktą kurti kalbos vertimo technologijoms.

[taisyti] Įvertinimas

Automatinio vertimo sistemas vertinti galima įvairiais būdais. Seniausias yra naudojantis žmogumi teisėju, kuris įvertina vertimo kokybę. Labiau šiuolaikiški būdai yra naudojantis įrankiais: BLEU, NIST ir METEOR.

Pasikliaujant vien automatiniu vertimu ignoruojama tai, kad žmogaus kalba yra paremta kontekstu ir, kad reikia būti žmogumi, kad adekvačiai suvokti originalaus teksto prasmę. Netgi tobulai žmogų imituojantis kompiuterinis vertėjas yra linkęs į klaidas. Todėl, kad užtikrinti automatinio vertimo sugeneruoto teksto kokybę ir naudą žmogui, jį turi peržiūrėti ir pakoreguoti gyvas žmogus.

Visgi tvirtinama, kad kai kurių taikomųjų programų išverstas tekstas nereikalauja žmogiško įsikišimo. Tai atvejai kai, tarkime, verčiami produktų aprašymai ir naudojama kontroliuojanti kalba, sistema turi žodynu paremtą įrankį ir produkcinę aplinką.

[taisyti] Nuorodos

[taisyti] Anglų <-> lietuvių

anglų-lietuvių bei lietuvių-anglų vertimo robotas (2006 m.)
VDU anglų-lietuvių teksto vertimas (2007 m. pab.)

[taisyti] Daugiakalbės vertyklės

Google Translate (anglų, ispanų, rusų, portugalų, korėjiečių, japonų, italų, graikų, vokiečių, prancūzų, olandų, kinų, arabų)
Babel Fish Translation
Переводчики и словари PROMT
InterTran (29 kalbos)
Langenberg - įvairių vertyklių kolekcija

Kategorija: Kompiuterių mokslas

See also ebooksgratis.com: no banners, no cookies, totally FREE.