Hrvatski nacionalni korpus
Izvor: Wikipedija
Hrvatski nacionalni korpus (HNK) najveći je i najznačajniji korpus hrvatskoga jezika. Počeo se sastavljati u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu od 1998. prema zamislima Marka Tadića. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, 1996, 1998)). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.
U početku je zamišljen u dvije temeljne sastavnice:
- 30-milijunskoga korpusa suvremenoga hrvatskoga jezika (30m) u koji su ulazili tekstovi ili njihovi odsječci nastali nakon 1990., isključivo od izvornih govornika, isključivo pisanoga teksta, različitih područja, žanrova i tematike. Nisu uključivani prijevodni i pjesnički tekstovi.
- Hrvatskoga elektroničkoga tekstovnoga arhiva (HETA) u koji su ulazili tekstovi u cjelini, a ponajprije čitavi nizovi publikacija (godišta, serije, edicije itd.) koji bi svojim uključivanjem u 30m u mnogome poremetili njegovu uravnoteženost.
Od 2004., s preuzimanjem koncepcije korpusa 3. generacije, napušta se dvosastavnost u korist višesastavnosti i većega opsega. Od 2005. HNK obasiže preko 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno. S napuštanjem prvotne dvosastavničke koncepcije HNK prelazi na novu poslužiteljsku platformu tako da je od tada za pretraživanje HNK (još uvijek bez ograničenja) potreban slobodno dostupan Bonito klijentski program proizveden u Laboratoriju za obradbu prirodnoga jezika Informatičkoga fakulteta Masarykova sveučilišta u Brnu. S pomoću toga programa omogućeni su znatno razrađeniji i složeniji upiti nad korpusom, dobivanje raznih vrsta statističkih podataka, potpuni ili djelomični popisi riječi prema raznovrsnim ulaznim uvjetima (s njihovim čestotama), čestotna distribucija različnica, automatsko pronalaženje kolokacija itd.