Lengoaia naturalen prozesamendua
Wikipedia(e)tik
Lengoaia naturalen prozesamendua (LNP, edo ingelesez, NLP - Natural Language Processing) adimen artifizialaren barne izanik, hizkuntzalaritza konputazionalean ingeniaritzari zuzendutako atala da. LNP lengoaia naturalen bidez pertsona eta makinen arteko komunikazioa era konputazionalean burutzea ikertzeaz arduratzen da. Eredu hauek ez dira lengoaiaren ulermenean bakarrik oinarritzen, baizik eta baita giza ezagutzaren aspektu orokor batzuetan eta memoriaren antolaketan. Lengoaia naturalak fenomeno hauek aztertzeko bitartekari bezala balio du.
Eduki-taula |
[aldatu] Historia
Lengoaia naturalen prozesamendua adimen artifizialaren baitan sortutako lehen adarretako bat da. Itzulpengintza automatikoa, esate baterako, 1940ko hamarkada amaieran sortu zen, adimen artifizial kontzeptua bera baino lehenago. Hala eta guztiz ere, LNPk egoera ezberdinak bizi izan ditu adimen artifizialaren barruan, aldaketa teknologiko eta zientifikoak direla-eta bere garrantzia honen baitan hazi eta murriztu egin delarik garai ezberdinetan. Ordenagailu bidez testuak itzultzeko lehen saiakerek huts egin zuten, ordenagailuen mugak eta hizkuntzalaritza arloko ezagutza urria zela-eta. Beranduago, 1960ko eta 1970eko hamarkadetan interfazeak lengoaia naturalen bidez sortzearen saiakerek arrakasta gehiago izan zuten. 1980ko eta 1990eko hamarkadetan izan da, batez ere, Itzulpengintza automatikoaren inguruko ikerketen berrindartzea.
[aldatu] Lengoaia naturalen prozesamendurako zailtasunak
[aldatu] Anbiguotasuna
Lengoaia naturala maila ezberdinetan anbiguoa izan ohi da:
- Mailan lexikoan: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
- Erreferentzia mailan: anafora eta kataforak ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
- Egitura mailan: Zuhaitz sintaktiko ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko semantikara jo beharra dago.
- Maila pragmatikoan: Esaldi askok, sarritan, ez dute esaten dena adierazten. Ironiek garrantzi handia dute mezuaren ulermenean.
Anbiguotasun hauek eta beste batzuk ebazteko, arazo nagusia lengoaia naturalean ematen diren sarrerak anbiguotasunik gabeko barne errepresentazio batean itzultzea da, hala nola, zuhaitz sintaktiko bat.
[aldatu] Hitzen arteko banaketak antzematea
Ahozko lengoaian ez dira tarteak uzten. Hitzen arteko tartea bilatzeko, askotan zentzu gramatikal eta kontestual baten bila jo beharra dago. Idatzizkoan ere, txinera bezalakoek ez dauzkate hitzen arteko tarterik.
[aldatu] Datuak ezegoki jasotzea
Atzerriko tiletak, hizketaren arazoak, idazketa orduko akatsak, OCR bidezko testuen irakurketek, eta beste arazo ugarik sortu dezakete sarrerako datuen jasoketa ezegoki bat.
[aldatu] Osagaiak
- Azterketa morfologikoa.
- Azterketa sintaktikoa.
- Azterketa semantikoa.
- Azterketa pragmatikoa.
- Perpausaren planifikazioa.
- Perpausaren sorrera.
[aldatu] Aplikazioak
Honako hauek dira LNPren arlo nagusiak:
- Lengoaiaren analisia
- Lengoaiaren ulermena
- Ahotsaren sintesia
- Lengoaia naturalen sortzea
- Itzulpengintza automatikoa
- Galderei erantzutea
- Informazioa eskuratzea
- Informazio erauzketa