See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Frekvence črk - Wikipedija, prosta enciklopedija

Frekvence črk

Iz Wikipedije, proste enciklopedije

Frekvenca črk je lastnost besedila, ki se pogosto uporablja pri analizi besedil in še posebno v kriptografiji. Jezik se spreminja, pa tudi vsak avtor piše nekoliko drugače, zato je običajno mogoča le statistična analiza. Frekvenca črk je torej odvisna od jezika besedila, avtorja, opisane teme pa tudi časovnega obdobja. Frekvenca črk, dvojčkov, trojčkov in n-teric črk (bolj natančno, znakov) lahko pokaže na značilnosti besedila in potrdi ali ovrže avtorstvo neznanega besedila, ki pa mora biti dovolj dolgo. V kriptografiji nam frekvence črk pomagajo pri razbijanju posameznih šifer.

Frekvence črk so pomembne tudi v prenosni tehniki, ko skušamo zakodirati sporočilo tako, da zavzame čimmanj prostora pri prenosu (ali shranjevanju). Značilen primer je Morsejev kod, kjer se najpogostejši E kodira z enim znakom (glej tudi Huffmanov kod).

Razpored oz. pogostnost črk igra pomembno tudi pri jezikovnih igrah kot sta scrabble in boogle. Pogostejše črke se pojavijo večkrat in so vredne manj točk in obratno. Prvi stavni stroji Linotype so uporabljali razpored etaoin shrdlu cmfwyp vbgkqj xz, ki naj bi ustrezal frekvenci črk v angleščini. Kasnejše analize so pokazale nekaj manjših sprememb v vrstnem redu črk. Danes, ko so na voljo velike količine besedil v digitalni obliki, je analiza precej enostavnejša.

Vsebina

[uredi] Frekvenca črk v slovenskem jeziku

V slovenščini je prve analize na relativno majhnem vzorcu v 60. letih opravil prof. Gyergyek (Rajko Jamnik: Teorija informacije). Kasneje se je s tem ubadal dr. Denis Poniž (Slovenski jezik in računalniki). Obsežno analizo je opravil Primož Jakopin, v doktorski disertaciji Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku.

Tabela (vir: P. Jakopin, doktorska disertacija)

znak odstotek
E 10,707 %
A 10,466 %
O 9,084 %
I 9,042 %
N 6,328 %
L 5,266 %
S 5,053 %
R 5,010 %
J 4,675 %
T 4,329 %
V 3,764 %
K 3,704 %
D 3,390 %
P 3,374 %
M 3,305 %
Z 2,103 %
B 1,939 %
U 1,879 %
G 1,638 %
Č 1,483 %
H 1,047 %
Š 0,996 %
C 0,662 %
Ž 0,646 %
F 0,110 %

[uredi] Frekvenca črk v drugih jezikih

angleščina:

E T A O I N S H R D L C U M W F G Y P B V K J X Q Z

nemščina:

E N I S R A T D H U L C G M O B W F K Z P V J Y X Q

španščina:

E A O S R N I D L C T U M P B G V Y Q H F Z J X W K

francoščina:

E S A I T N R U L O D C P M É V Q F B G H J À X Y È Ê Z W Ç Ù K Î Œ Ï Ë

češčina:

O E A N T I V L S R D K U P Í M C H Á Z Y J B Ř Ě É Č Ž Ý Š Ů G F Ú Ň W Ď Ó X Ť (Q) (časopis, 2500 besed)

poljščina:

A I E O N Z W S C R Y T K D P M J U L Ł G B H Ą Ę Ó Ź Ś Ć Ń F Ż X V (Q) (časopis, 11.000 besed)

ruščina:

О Е А И Н Т С В Л Р К Д М П У Ы Я Г Б З Ч Й Х Ж Ш Ю Ц Щ Э Ф Ё (Solženicin, 86.000 besed)

О Е А И Н Т С Р В Л К М Д П У Ы Я Г З Б Ч Й Ж Х Ю Ш Ц Щ Э Ф Ё (časopis 25.000 besed)

slovaščina:

A O E S N I T R V L K D M C U P Z Y H J G F B (Q W X) (Mistrik 1985, 200.000 besed brez naglasnih znamenj)

[uredi] Viri in opombe

[uredi] Zunanje povezave


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -