Алгоритм Кнута — Морриса — Пратта

Материал из Википедии — свободной энциклопедии

Алгоритм Кнута — Морриса — Пратта (КМП-алгоритм) — алгоритм поиска образца (подстроки) в строке.

Содержание

1 Постановка задачи
2 История возникновения
3 Пример практической реализации
4 Реализация алгоритма на языке Паскаль
5 Ссылки
6 См. также

[править] Постановка задачи

Поставим следующую задачу: имеется образец $\displaystyle x$ и строка $\displaystyle y$ , и нужно определить индекс, начиная с которого строка $\displaystyle x$ содержится в строке $\displaystyle y$ . Если $\displaystyle x$ не содержится в $\displaystyle y$ — вернуть индекс, который не может быть интерпретирован как позиция в строке (например, отрицательное число).

[править] История возникновения

Этот алгоритм появился в результате тщательного анализа алгоритма грубой силы (англ. brute-force). Исследователи хотели найти способы более полно использовать информацию, полученную во время сканирования строки (алгоритм грубой силы ее просто выбрасывает).

Размер сдвига образца можно увеличить, одновременно запомнив части текста, совпадающие с образцом. Это позволит избежать ненужных сравнений и, тем самым, резко увеличить скорость поиска.

Рассмотрим сравнение строк на позиции $\displaystyle i$ , где образец $\displaystyle x[ 0, m - 1 ]$ сопоставляется с частью текста $\displaystyle \displaystyle y[ i, i + m - 1 ]$ . Предположим, что первое несовпадение произошло между $\displaystyle y[ i + j ]$ и $\displaystyle x[ j ]$ , где $\displaystyle 1 < j < m$ . Тогда $\displaystyle y[ i, i + j - 1 ] = x[ 0, j - 1 ] = u$ и $\displaystyle a = y[ i + j ] \not= x[ j ] = b$ .

При сдвиге вполне можно ожидать, что префикс (начальные символы) образца $\displaystyle u$ сойдется с каким-нибудь суффиксом подслова текста $\displaystyle u$ . Длина наиболее длинного префикса, являющегося одновременно суффиксом есть префикс-функция от строки $\displaystyle u$ .

Это приводит нас к следующему алгоритму: пусть $\displaystyle \rm{mp\_next}[ j ]$ — префикс-функция от строки $\displaystyle x[ 0, j - 1 ]$ . Тогда после сдвига мы можем возобновить сравнения с места $\displaystyle y[ i + j ]$ и $\displaystyle x[ j - \rm{mp\_next}[ j ] ]$ без потери возможного местонахождения образца. Таблица $\displaystyle \rm{mp\_next}$ может быть вычислена за $\displaystyle O( m )$ сравнений перед началом поиска.

[править] Пример практической реализации

Пусть ищется строка $\displaystyle S_1$ в строке $\displaystyle S_2$ . Построим строку $\displaystyle S=S_1\$S_2$ , где символ $\displaystyle\$$ — символ, не встречающийся ни в $\displaystyle S_1$ , ни в $\displaystyle S_2$ . Далее вычислим значения префикс-функции от строки $\displaystyle S$ и всех её префиксов. Теперь, если префикс-функция от префикса строки $\displaystyle S$ длины $\displaystyle i$ равна $\displaystyle n$ , где $\displaystyle n$ — длина $\displaystyle S_1$ , и $\displaystyle i>n$ , то в строке $\displaystyle S_2$ есть вхождение $\displaystyle S_1$ , начиная с позиции $\displaystyle i-2n$ .

[править] Реализация алгоритма на языке Паскаль

Function pos (t,p : String) : integer;
 var F : array[0..length] of integer;
     k,i : integer;
 {t - подстрока;p - соотвественно строка}
 {length - сумма длин строки и подстроки }
 begin
  F[1] := 0;
  k := 0;
  For i := 2 to length(T) do
   begin
    While (k > 0) and (T[k+1] <> t[i]) do k := F[k];
    if T[k+1] = T[i] Then Inc(k);
    F[i] := k;
   end;
  k := 0;
  For i := 1 to length(P) do
   begin
    While (k > 0) and ( T[k+1] <> P[i]) do k := F[k];
    if T[k+1] = T[i] Then Inc(k);
    if k = length(T)
     Then
      Begin
       pos := i+length(t);
       {Здесь обрабатываются полученные данные после того как мы нашли подстроку,
 можно сделать результатом работы функции не только положение подстроки}
       Exit;
      End;
   end;
 end;

Возможно алгоритм немного неверный если найдете ошибки правьте.

[править] Ссылки

http://algolist.manual.ru/search/esearch/kmp.php

[править] См. также

Категория: Строковые алгоритмы

See also ebooksgratis.com: no banners, no cookies, totally FREE.

Алгоритм Кнута — Морриса — Пратта

Материал из Википедии — свободной энциклопедии

Содержание

[править] Постановка задачи

[править] История возникновения

[править] Пример практической реализации

[править] Реализация алгоритма на языке Паскаль

[править] Ссылки

[править] См. также

Views

Навигация

Участие

Поиск

На других языках