See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Алгоритм Кнута — Морриса — Пратта — Википедия

Алгоритм Кнута — Морриса — Пратта

Материал из Википедии — свободной энциклопедии

Алгоритм Кнута — Морриса — Пратта (КМП-алгоритм) — алгоритм поиска образца (подстроки) в строке.

Содержание

[править] Постановка задачи

Поставим следующую задачу: имеется образец \displaystyle x и строка \displaystyle y, и нужно определить индекс, начиная с которого строка \displaystyle x содержится в строке \displaystyle y. Если \displaystyle x не содержится в \displaystyle y — вернуть индекс, который не может быть интерпретирован как позиция в строке (например, отрицательное число).

[править] История возникновения

Этот алгоритм появился в результате тщательного анализа алгоритма грубой силы (англ. brute-force). Исследователи хотели найти способы более полно использовать информацию, полученную во время сканирования строки (алгоритм грубой силы ее просто выбрасывает).

Размер сдвига образца можно увеличить, одновременно запомнив части текста, совпадающие с образцом. Это позволит избежать ненужных сравнений и, тем самым, резко увеличить скорость поиска.

Рассмотрим сравнение строк на позиции \displaystyle i, где образец \displaystyle x[ 0, m - 1 ] сопоставляется с частью текста \displaystyle \displaystyle y[ i, i + m - 1 ]. Предположим, что первое несовпадение произошло между \displaystyle y[ i + j ] и \displaystyle x[ j ], где \displaystyle 1 < j < m. Тогда \displaystyle y[ i, i + j - 1 ] = x[ 0, j - 1 ] = u и \displaystyle a = y[ i + j ] \not= x[ j ] = b.

При сдвиге вполне можно ожидать, что префикс (начальные символы) образца \displaystyle u сойдется с каким-нибудь суффиксом подслова текста \displaystyle u. Длина наиболее длинного префикса, являющегося одновременно суффиксом есть префикс-функция от строки \displaystyle u.

Это приводит нас к следующему алгоритму: пусть \displaystyle \rm{mp\_next}[ j ] — префикс-функция от строки \displaystyle x[ 0, j - 1 ]. Тогда после сдвига мы можем возобновить сравнения с места \displaystyle y[ i + j ] и \displaystyle x[ j - \rm{mp\_next}[ j ] ] без потери возможного местонахождения образца. Таблица \displaystyle \rm{mp\_next} может быть вычислена за \displaystyle O( m ) сравнений перед началом поиска.

[править] Пример практической реализации

Пусть ищется строка \displaystyle S_1 в строке \displaystyle S_2. Построим строку \displaystyle S=S_1\$S_2, где символ \displaystyle\$ — символ, не встречающийся ни в \displaystyle S_1, ни в \displaystyle S_2. Далее вычислим значения префикс-функции от строки \displaystyle S и всех её префиксов. Теперь, если префикс-функция от префикса строки \displaystyle S длины \displaystyle i равна \displaystyle n, где \displaystyle n — длина \displaystyle S_1, и \displaystyle i>n, то в строке \displaystyle S_2 есть вхождение \displaystyle S_1, начиная с позиции \displaystyle i-2n.

[править] Реализация алгоритма на языке Паскаль

Function pos (t,p : String) : integer;
 var F : array[0..length] of integer;
     k,i : integer;
 {t - подстрока;p - соотвественно строка}
 {length - сумма длин строки и подстроки }
 begin
  F[1] := 0;
  k := 0;
  For i := 2 to length(T) do
   begin
    While (k > 0) and (T[k+1] <> t[i]) do k := F[k];
    if T[k+1] = T[i] Then Inc(k);
    F[i] := k;
   end;
  k := 0;
  For i := 1 to length(P) do
   begin
    While (k > 0) and ( T[k+1] <> P[i]) do k := F[k];
    if T[k+1] = T[i] Then Inc(k);
    if k = length(T)
     Then
      Begin
       pos := i+length(t);
       {Здесь обрабатываются полученные данные после того как мы нашли подстроку,
 можно сделать результатом работы функции не только положение подстроки}
       Exit;
      End;
   end;
 end;

Возможно алгоритм немного неверный если найдете ошибки правьте.

[править] Ссылки

http://algolist.manual.ru/search/esearch/kmp.php

[править] См. также


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -