Datizrace
Vikipēdijas raksts
Datizrace vai Data mining - process, kurā no liela apjoma datiem tiek iegūtas jaunas, netriviālas, praktiski lietderīgas zināšanas, kas nepieciešamas lēmumu pieņemšanā dažādās sfērās.
Datizraces pamatā ir šablonu (patterns) koncepcija. Šabloni ir likumsakarības, kas raksturīgas datu izlasēm, un tās var attēlot formā, kas ir saprotama cilvēkam.
Termins Data mining radies 1978. gadā, bet mūsdienu traktējumā, tad guvis plašu ievērību, sākot ar 90. gadu pirmo pusi. Līdz tam datu analīzi veica ar statistikas palīdzību, un varēja apstrādāt nelielus datu apjomus. Datizrace ir plaša nozare, kas radusies un attīstījusies no tadām zinātņu jomām kā statistika, tēlu atpazīšana, mākslīgais intelekts, datu bāžu teorija, mašīnapmācība utt.
Satura rādītājs |
[izmainīt šo sadaļu] Salīdzinājums ar citām datu analīzes metodēm
Tradicionalās datu analīzes metodes (statistika) un OLAP galvenokārt orientētas uz iepriekš formulētu hipotēžu pārbaudi un uz "raupju" izmeklēšanas analīzi, bet datizraces pamatā ir "ne uzreiz pamanāmu" likumsakarību meklēšana. Datizraces instrumenti var atrast šādas likumsakarības patstavīgi, kā arī patstāvīgi izveidot hipotēzes par savstarpējām sakarībām.
Ja vairums statistisko metožu strādā ar neeksistējošiem lielumiem, izmantojot izlases vidējā koncepciju, tad datizrace darbojas ar reālām vērtībām
Ja salīdzina datizraci, statistiku un mašīnapmācību, tad statistika pamatā bāzējas uz teoriju, mašīnapmācība bāzējas uz apmācību, bet datizrace integrē teoriju un apmācību. Ja statistika koncentrējas uz hipotēžu pārbaudi, bet mašīnapamācība - uz apmācības aģentu darbības uzlabošanu, tad datizrace ir koncentrēta uz vienotu datu analīzes procesu, kas ietver datu attīrīšanu, apmācību, rezultātu integrāciju un vizualizāciju.
[izmainīt šo sadaļu] Datizraces process
Datizraces process parasti notiek divos vai trijos posmos:
- Likumsakarību atrašana (brīva meklēšana)
- Atrasto likumsakarību izmantošana, lai prognozētu nezināmās vērtības (prognozējošā modelēšana)
- Izņēmumsituāciju analīze (likumsakarībās atrasto anomāliju noteikšana un izskaidrošana)
[izmainīt šo sadaļu] Datizraces uzdevumi
Ar likumsakarību (šablonu) atrašanu tiek risināti datizraces uzdevumi. Pēc iegūtās informācijas tipiem, datizraces uzdevumus iedala šādās grupās:
- Klasifikācija (Classification)
- Klāsterizācija (Clustering)
- Asociācija (Associations)
- Secība (Sequence)
- Prognozēšana (Forecasting)
- Noviržu noteikšana (Deviation Detection)
- Novērtēšana (Estimation)
- Saišu analīze (Link Analysis)
- Vizualizācija (Visualization, Graph Mining)
- Kopsavilkums (Summarization)
Pēc izvēlētās statēģijas, uzdevumus iedala:
- apmācība ar skolotāju
- apmācība bez skolotāja
- citi
[izmainīt šo sadaļu] Datizraces metodes
Ir vairākas datizraces metožu klasifikācijas.
Pēc tā, vai dati pēc datizraces tiek saglabāti vai arī tiek distilēti turpmākajai izmantošanai:
- Tiešā datu izmantošana vai datu saglabāšana
- klāsteranalīze
- tuvākā kaimiņa metode
- k-tuvākā kaimiņa metode
- spriešana pēc analoģijas
- Formālo likumsakarību atrašana un izmantošana vai šablonu distilācija
- loģiskās metodes
- netiešie vaicājumi un analīzes
- simboliskie noteikumi
- risinājumu koki
- ģenētiskie algoritmi
- vizualizācijas metodes
- šķērstabulācijas metodes
- aģenti
- Baijesa tīkli
- šķērstabulu vizualizācija
- metodes, kas balstītas uz vienādojumiem
- statistiskās metodes
- neironu tīkli
- loģiskās metodes
Pēc matemātisko modeļu apmācības pieejas, datizraces metodes var arī iedalīt:
- statistiskās metodes
- kibernētiskās metodes
[izmainīt šo sadaļu] Praktiskais pielietojums
- Biznesa uzdevumi (bankas, finanses, apdrošināšana, CRM, ražošana, sakari, elektroniskā komercija, mārketings u.c.)
- Valsts līmeņa uzdevumi (personu meklēšana, kas izvairās no nodokļiem, līdzekļi cīņā pret terorismu)
- Zinātniskie pētījumi (medicīna, bioloģija, ģenētika, bioinformātika, astronomija, ķīmija u.c.)
- Web Mining, globalā tīmekļa uzdevumi (meklēšanas programmas, skaitītāji u.c.)
- Text Mining - tekstu apstrāde
- Call Mining - telefona zvanu apstrāde