Dokumentuen sailkapena

Wikipedia(e)tik

Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. Dokumentu elektroniko baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak ezagutzaren ingeniaritzan oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990ko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz.

Ikasketa automatikoan oinarritutako dokumentuen sailkapenerako bi prozesu mota ezberdindu daitezke:

Ikasketa gainbegiratuan oinarritutako dokumentuen sailkapena: sailkapen prozesua burutu aurretik, aurrez sailkatutako dokumentu sorta bat eskuragarri dago, eta berau erabiltzen da sistema entrenatzeko.
Ikasketa ez-gainbegiratuan oinarritutako dokumentuen sailkapena: ez dago aurrez sailkatutako dokumentu sortarik eskuragarri, eta sailkapena itsu-itsuan burutzen da. Honako hau ez da sailkapen atazatzat hartzen askotan, eta taldekatzea edo clustering bezala ere ezagutu ohi da.

Hala eta guztiz ere, azken urteotan gero eta gehiagotan erabiltzen den aukera da ikasketa erdi-gainbegiratuan oinarritutako dokumentuen sailkapena. Aukera hau oso baliagarria da aurrez sailkatutako dokumentu sorta oso txikia denean sorta osoarekiko, esate baterako, Webaren kasuan. Aurrez sailkatutako dokumentuak ikasteko erabiltzeaz gain, sailkatu gabe dauden dokumentuak ere baliatu egiten dira kasu honetan sailkatzailearen ikasketa prozesurako. Sailkatutako dokumentuekin ikasi, eta sailkatu gabekoekin findu egiten da^[1].

Dokumentuen sailkapenerako tresna bat garatzerako orduan, hiru dira gainditu beharreko erronkak^[2]:

Dokumentuen indexazioa, eta ondorioz, hauen adierazpenerako formatua.
Sailkatzailea sortzea.
Emaitzen ebaluazioa.

[aldatu] Teknikak

[aldatu] Ikasketa gainbegiratua

Sakontzeko, irakurri: Sailkapen gainbegiratua

[aldatu] Ikasketa erdi-gainbegiratua

Sakontzeko, irakurri: Sailkapen erdi-gainbegiratua

[aldatu] Ikasketa ez-gainbegiratua

Sakontzeko, irakurri: Datuen taldekatzea

Gainbegiratu gabeko ikasketa sistemek sailkatu beharreko kategorien metadaturik ez dutenez, sailkapena itsu-itsuan egin ohi da, eta honenbestez, ez da berezko sailkapen sistematzat hartzen, taldekatzea edo clustering izena hartzen duelarik.

[aldatu] Aplikazioak

[aldatu] Iragazketa sistemak

Sailkapen automatikoak iragazketarako duen aplikaziorik ezagunena spam mezuen baztertzea da, zeinak sailkapenaren bitartez zabor-posta iragazten duen. Sailkapen hau mota ezberdinetakoa izan daiteke: posible da mezuak zaborra diren edo ez besterik zehazten ez duen sistema garatzea, edo baita zaborra ez diren mezu horiek nahi bezainbeste kategoriatan sailkatzea ere, beharren arabera.

Zabor-postaren kasu konkretuaz gain, beste edozein iragazketa sistema garatzeko erabil daiteke sailkapen automatikoa; adibidez, profil pertsonalizatuak baliatuz, albisteak erabiltzaile konkretu batentzako interesgarriak izan daitezkeen edo ez sailkatzea.

[aldatu] Web katalogo hierarkikoak

Webak duen tamaina izugarria eta hazkunde etengabea kontuan izanik, argi dago ezinezkoa dela bertan dauden dokumentu guztiak eskuz sailkatzea. Horrexegatik, lan hauek prozesu automatikoen bidez egiten dira gaur egun, baliabide askotarako interesgarriak direnak; esate baterako, web bilatzaileentzako informazio gehigarri gisa. Web katalogoak sailkatzerakoan bi era ezberdinetan bideratu daiteke arazoa, web orrialdeak banaka edota webguneak bere osotasunean sailkatuz^[3].

Web katalogo hierarkikoak sortzeak eskain ditzakeen abantailen artean hurrengo aplikazioak nabarmen daitezke:

Web bilatzaileen emaitzak hobetzea.
Galderei erantzuteko sistemei laguntzea.
Web bilatzaile bertikalak sortzea.

[aldatu] Hitzen adiera-desanbiguazioa (Word Sense Disambiguation)

Sakontzeko, irakurri: Hitzen adiera-desanbiguazioa

Mota honetako sistemek adieraren arabera sailkatzen dituzte hitz polisemikoak, eta honenbestez, posible da hitz zehatz batek kasu bakoitzean duen esanahia antzematea.

[aldatu] Hizkuntzaren identifikazioa

Sakontzeko, irakurri: Hizkuntzaren identifikazioa

Sailkatu beharreko dokumentu sorta hizkuntza ezberdineko testuez osatuta egon daiteke, esate baterako, Webaren kasuan. Horrelakoetan oso interesgarria izaten da testuok hizkuntzaren arabera sailkatzea, kategoria bakoitzean hizkuntza bakarreko dokumentuak bilduz. N-gramak baliatuz honako hau egiten duen sistema ezagunenetakoa TextCat da.

[aldatu] Sentimenduen sailkapena

Azken urteotan gero eta gehiagotan erabiltzen den zerbait da sentimenduen sailkapena. Honi esker, testu batean erakusten den jarrera positiboa edo negatiboa sailkatu ohi da. Esate baterako, filmeen kritika ezberdinak onak edo txarrak diren definitu daiteke, eta ondorioz, balorazio orokorrak atera.

[aldatu] Ikus, gainera

Sailkapena
Informazioa eskuratzea
Ikasketa automatikoa
Testu-meatzaritza, web-meatzaritza, kontzeptu-meatzaritza

[aldatu] Erreferentziak

↑ Zhu, X. Semi-Supervised Learning Literature Survey. Wisconsingo Unibertsitatea. 2007.
↑ Sebastiani, F. Machine learning in automated text categorization. ACM Computing Surveys. 2002.
↑ Qi, X. and Davison, B. D. Web Page Classification: Features and Algorithms. Technical Report. 2007.

[aldatu] Kanpo loturak

[aldatu] Datu sortak

Kategoria: Hizkuntzalaritza konputazionala

See also ebooksgratis.com: no banners, no cookies, totally FREE.