Обнаружение каждого шаблона в произвольной строке и подсчет дубликатов - PullRequest
0 голосов
/ 11 июня 2018

Мне интересно, как лучше всего найти шаблоны в произвольной строке и посчитать их, чтобы получить наиболее распространенные.

По сути, у меня есть временной ряд, который я перевел в буквы конечного алфавита(допустим, 20 букв), создавая огромную строку.Каков наилучший способ найти и посчитать шаблоны?Параметры можно использовать для ограничения количества символов для поиска в качестве шаблона, например, минимум 4, максимум 30 букв для шаблона.

Являются ли деревья суффиксов вариантом?Или есть какой-нибудь метод анализа данных, который может это сделать?

1 Ответ

0 голосов
/ 15 июня 2018

https://en.m.wikipedia.org/wiki/Sequential_pattern_mining

Последовательный анализ шаблонов - это тема интеллектуального анализа данных, связанная с поиском статистически значимых шаблонов между примерами данных, в которых значения передаются в последовательности.

Затем вы можете использовать fp-grpwth как алгоритмы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...