See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Hrvatski nacionalni korpus - Wikipedija

Hrvatski nacionalni korpus

Izvor: Wikipedija

Hrvatski nacionalni korpus (HNK) najveći je i najznačajniji korpus hrvatskoga jezika. Počeo se sastavljati u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu od 1998. prema zamislima Marka Tadića. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, 1996, 1998)). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.

U početku je zamišljen u dvije temeljne sastavnice:

  1. 30-milijunskoga korpusa suvremenoga hrvatskoga jezika (30m) u koji su ulazili tekstovi ili njihovi odsječci nastali nakon 1990., isključivo od izvornih govornika, isključivo pisanoga teksta, različitih područja, žanrova i tematike. Nisu uključivani prijevodni i pjesnički tekstovi.
  2. Hrvatskoga elektroničkoga tekstovnoga arhiva (HETA) u koji su ulazili tekstovi u cjelini, a ponajprije čitavi nizovi publikacija (godišta, serije, edicije itd.) koji bi svojim uključivanjem u 30m u mnogome poremetili njegovu uravnoteženost.

Od 2004., s preuzimanjem koncepcije korpusa 3. generacije, napušta se dvosastavnost u korist višesastavnosti i većega opsega. Od 2005. HNK obasiže preko 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno. S napuštanjem prvotne dvosastavničke koncepcije HNK prelazi na novu poslužiteljsku platformu tako da je od tada za pretraživanje HNK (još uvijek bez ograničenja) potreban slobodno dostupan Bonito klijentski program proizveden u Laboratoriju za obradbu prirodnoga jezika Informatičkoga fakulteta Masarykova sveučilišta u Brnu. S pomoću toga programa omogućeni su znatno razrađeniji i složeniji upiti nad korpusom, dobivanje raznih vrsta statističkih podataka, potpuni ili djelomični popisi riječi prema raznovrsnim ulaznim uvjetima (s njihovim čestotama), čestotna distribucija različnica, automatsko pronalaženje kolokacija itd.

[uredi] Vanjske poveznice

Drugi jezici


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -