Существует ли какой-либо инструмент или утилита или скрипт на perl / python, который может найти самые длинные повторяющиеся подстроки в большом текстовом файле и распечатать эти шаблоны и количество раз, которое каждый шаблон появляется?
http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:
Самая длинная повторяющаяся проблема с подстрокой заключается в поиске самой длинной подстроки строки, которая встречается как минимум дважды. Эта проблема может быть решена в линейном времени и пространстве путем создания дерева суффиксов для строки и поиска самого глубокого внутреннего узла в дереве
Суффикс деревья в питоне (хотя и немного устаревшие ..): http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/
Реализация Javascript с дополнительными пояснениями: http://www.allisons.org/ll/AlgDS/Tree/Suffix/