Frekvence črk
Iz Wikipedije, proste enciklopedije
Frekvenca črk je lastnost besedila, ki se pogosto uporablja pri analizi besedil in še posebno v kriptografiji. Jezik se spreminja, pa tudi vsak avtor piše nekoliko drugače, zato je običajno mogoča le statistična analiza. Frekvenca črk je torej odvisna od jezika besedila, avtorja, opisane teme pa tudi časovnega obdobja. Frekvenca črk, dvojčkov, trojčkov in n-teric črk (bolj natančno, znakov) lahko pokaže na značilnosti besedila in potrdi ali ovrže avtorstvo neznanega besedila, ki pa mora biti dovolj dolgo. V kriptografiji nam frekvence črk pomagajo pri razbijanju posameznih šifer.
Frekvence črk so pomembne tudi v prenosni tehniki, ko skušamo zakodirati sporočilo tako, da zavzame čimmanj prostora pri prenosu (ali shranjevanju). Značilen primer je Morsejev kod, kjer se najpogostejši E kodira z enim znakom (glej tudi Huffmanov kod).
Razpored oz. pogostnost črk igra pomembno tudi pri jezikovnih igrah kot sta scrabble in boogle. Pogostejše črke se pojavijo večkrat in so vredne manj točk in obratno. Prvi stavni stroji Linotype so uporabljali razpored etaoin shrdlu cmfwyp vbgkqj xz, ki naj bi ustrezal frekvenci črk v angleščini. Kasnejše analize so pokazale nekaj manjših sprememb v vrstnem redu črk. Danes, ko so na voljo velike količine besedil v digitalni obliki, je analiza precej enostavnejša.
Vsebina |
[uredi] Frekvenca črk v slovenskem jeziku
V slovenščini je prve analize na relativno majhnem vzorcu v 60. letih opravil prof. Gyergyek (Rajko Jamnik: Teorija informacije). Kasneje se je s tem ubadal dr. Denis Poniž (Slovenski jezik in računalniki). Obsežno analizo je opravil Primož Jakopin, v doktorski disertaciji Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku.
Tabela (vir: P. Jakopin, doktorska disertacija)
znak | odstotek |
---|---|
E | 10,707 % |
A | 10,466 % |
O | 9,084 % |
I | 9,042 % |
N | 6,328 % |
L | 5,266 % |
S | 5,053 % |
R | 5,010 % |
J | 4,675 % |
T | 4,329 % |
V | 3,764 % |
K | 3,704 % |
D | 3,390 % |
P | 3,374 % |
M | 3,305 % |
Z | 2,103 % |
B | 1,939 % |
U | 1,879 % |
G | 1,638 % |
Č | 1,483 % |
H | 1,047 % |
Š | 0,996 % |
C | 0,662 % |
Ž | 0,646 % |
F | 0,110 % |
[uredi] Frekvenca črk v drugih jezikih
E T A O I N S H R D L C U M W F G Y P B V K J X Q Z
E N I S R A T D H U L C G M O B W F K Z P V J Y X Q
E A O S R N I D L C T U M P B G V Y Q H F Z J X W K
E S A I T N R U L O D C P M É V Q F B G H J À X Y È Ê Z W Ç Ù K Î Œ Ï Ë
O E A N T I V L S R D K U P Í M C H Á Z Y J B Ř Ě É Č Ž Ý Š Ů G F Ú Ň W Ď Ó X Ť (Q) (časopis, 2500 besed)
A I E O N Z W S C R Y T K D P M J U L Ł G B H Ą Ę Ó Ź Ś Ć Ń F Ż X V (Q) (časopis, 11.000 besed)
О Е А И Н Т С В Л Р К Д М П У Ы Я Г Б З Ч Й Х Ж Ш Ю Ц Щ Э Ф Ё (Solženicin, 86.000 besed)
О Е А И Н Т С Р В Л К М Д П У Ы Я Г З Б Ч Й Ж Х Ю Ш Ц Щ Э Ф Ё (časopis 25.000 besed)
A O E S N I T R V L K D M C U P Z Y H J G F B (Q W X) (Mistrik 1985, 200.000 besed brez naglasnih znamenj)
[uredi] Viri in opombe
- Rajko Jamnik. Elementi teorije informacije. Ljubljana. Mladinska knjiga, 1964. (Knjižnica Sigma; 10) (COBISS)
- Denis Poniž. Slovenski jezik - literatura - računalniki. Maribor, Obzorja, 1974. (COBISS)
- Primož Jakopin, Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku, doktorska disertacija. (COBISS)
[uredi] Zunanje povezave
- Primož Jakopin, Statistični opis
- http://www.bckelk.ukfsn.org/words/etaoin.html Frekvence črk v drugih jezikih