Dokumenttien luokittelu
Wikipedia
Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja.
Uusimpia dokumenttien luokittelun sovellusalueita on roskapostin tunnistaminen.
[muokkaa] Luokittelun alalajit
Alun perin dokumentteja ovat luokitelleet tehtävään koulutetut asiantuntijat. Ihminen ymmärtää lukemansa ja tekee harvoin karkeita virheitä luokittelussa. Käsin luokitteleminen on kuitenkin hidasta. Haittana voi olla myös ihmisen subjektiivisuus. Dokumenttikokoelmien kasvaessa on alettu käyttää apuna tietokoneohjelmia.
Yksi vaihtoehto on asiantuntijajärjestelmä eli asiantuntijoiden tietämyksen mallintaminen sääntökokoelmaksi. Hyvin toimivien sääntöjen löytäminen voi kuitenkin osoittautua työlääksi, ja säännöstö saattaa paisua laajaksi ja vaikeasti ylläpidettäväksi.
Nopeamman ja joustavamman vaihtoehdon tarjoaa koneoppiminen eli luokittelusäännöstön tai -mallin automaattinen muodostaminen. Jos käytössä ei ole valmiiksi luokiteltua aineistoa tai jos dokumenttien väliset yhteydet halutaan selvittää ilman etukäteen määrättyjä luokkia, luokitteluohjelma voi perustua ohjaamattomaan oppimiseen ja vain pyrkiä liittämään yhteen toisiaan muistuttavat dokumentit. Tällöin puhutaan dokumenttien ryvästämisestä eli klusteroinnista.
Ohjatussa oppimisessa luokitteluohjelman käytössä on etukäteen luokiteltu opetusaineisto. Tarkoituksena on luoda aineiston pohjalta malli tai säännöstö, jonka avulla ohjelma voi luokitella uusia dokumentteja.
[muokkaa] Luokittelumenetelmiä
Dokumenttien luokittelun ensimmäinen vaihe on yleensä luokittelussa käytettävien piirteiden valinta. Yleensä tarkastellaan tekstin sisältämiä sanoja tai ilmauksia ja niiden frekvenssejä, mutta myös dokumentin metatiedosta voi olla hyötyä. Kieliteknologian menetelmiä voidaan käyttää piirteiden valintaan. Luokiteltavasta tekstistä voidaan esimerkiksi poimia kaikki termit, tai tekstin sanat voidaan palauttaa perusmuotoon morfologisella analyysilla.[1]
Valitut piirteet syötetään varsinaiselle luokittelualgoritmille. Luokitteluun on käytetty mm. seuraavia menetelmiä:
- naiivi Bayesin luokitin (katso myös bayesilainen suodatus)
- latentti semanttinen indeksointi
- tukivektorikoneet
- Kohosen itseorganisoiva kartta (ohjaamatonta oppimista) (SOM)
[muokkaa] Lähteet
- ↑ Mikko Silvonen: Suomenkielisten lehtiartikkelien luokittelu. Pro gradu -työ. Helsingin yliopisto, tietojenkäsittelytieteen laitos, 1998. C-1998-58. Teoksen verkkoversio.