Утилита для поиска максимально длинных повторяющихся строк - PullRequest
5 голосов
/ 27 января 2010

Существует ли какой-либо инструмент или утилита или скрипт на perl / python, который может найти самые длинные повторяющиеся подстроки в большом текстовом файле и распечатать эти шаблоны и количество раз, которое каждый шаблон появляется?

1 Ответ

2 голосов
/ 27 января 2010

http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:

Самая длинная повторяющаяся проблема с подстрокой заключается в поиске самой длинной подстроки строки, которая встречается как минимум дважды. Эта проблема может быть решена в линейном времени и пространстве путем создания дерева суффиксов для строки и поиска самого глубокого внутреннего узла в дереве

...