ebooksgratis.com

See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Dokumenttien luokittelu – Wikipedia

Dokumenttien luokittelu

Wikipedia

Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja.

Uusimpia dokumenttien luokittelun sovellusalueita on roskapostin tunnistaminen.

[muokkaa] Luokittelun alalajit

Alun perin dokumentteja ovat luokitelleet tehtävään koulutetut asiantuntijat. Ihminen ymmärtää lukemansa ja tekee harvoin karkeita virheitä luokittelussa. Käsin luokitteleminen on kuitenkin hidasta. Haittana voi olla myös ihmisen subjektiivisuus. Dokumenttikokoelmien kasvaessa on alettu käyttää apuna tietokoneohjelmia.

Yksi vaihtoehto on asiantuntijajärjestelmä eli asiantuntijoiden tietämyksen mallintaminen sääntökokoelmaksi. Hyvin toimivien sääntöjen löytäminen voi kuitenkin osoittautua työlääksi, ja säännöstö saattaa paisua laajaksi ja vaikeasti ylläpidettäväksi.

Nopeamman ja joustavamman vaihtoehdon tarjoaa koneoppiminen eli luokittelusäännöstön tai -mallin automaattinen muodostaminen. Jos käytössä ei ole valmiiksi luokiteltua aineistoa tai jos dokumenttien väliset yhteydet halutaan selvittää ilman etukäteen määrättyjä luokkia, luokitteluohjelma voi perustua ohjaamattomaan oppimiseen ja vain pyrkiä liittämään yhteen toisiaan muistuttavat dokumentit. Tällöin puhutaan dokumenttien ryvästämisestä eli klusteroinnista.

Ohjatussa oppimisessa luokitteluohjelman käytössä on etukäteen luokiteltu opetusaineisto. Tarkoituksena on luoda aineiston pohjalta malli tai säännöstö, jonka avulla ohjelma voi luokitella uusia dokumentteja.

[muokkaa] Luokittelumenetelmiä

Dokumenttien luokittelun ensimmäinen vaihe on yleensä luokittelussa käytettävien piirteiden valinta. Yleensä tarkastellaan tekstin sisältämiä sanoja tai ilmauksia ja niiden frekvenssejä, mutta myös dokumentin metatiedosta voi olla hyötyä. Kieliteknologian menetelmiä voidaan käyttää piirteiden valintaan. Luokiteltavasta tekstistä voidaan esimerkiksi poimia kaikki termit, tai tekstin sanat voidaan palauttaa perusmuotoon morfologisella analyysilla.[1]

Valitut piirteet syötetään varsinaiselle luokittelualgoritmille. Luokitteluun on käytetty mm. seuraavia menetelmiä:

[muokkaa] Lähteet

  1. Mikko Silvonen: Suomenkielisten lehtiartikkelien luokittelu. Pro gradu -työ. Helsingin yliopisto, tietojenkäsittelytieteen laitos, 1998. C-1998-58. Teoksen verkkoversio.


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -