У меня есть огромный набор данных, содержащий несколько повторяющихся данных (файл журнала пользователя), и я хотел бы сделать аналогичное распознавание и рекомендацию появления шаблона на основе загрузки пользователя. После распознавания образов я должен порекомендовать пользователю наилучшее возможное значение.
Например, следующие журналы загрузки, основанные на времени:
A C D F A C D A B D A C D F A C D A B D
Я хотел бы распознать шаблон, существующий между этим набором данных, и отобразить результат в виде:
A -> C = 4
C -> D = 4
D -> F = 2
F -> A = 2
D -> A = 3
A -> B = 1
B -> D = 1
A -> C -> D = 2
C -> D -> F = 2
D -> F -> A = 1
F -> A -> C = 1
C -> D -> A = 1
D -> A -> B = 1
A -> B -> D = 1
Число в конце представляет номер повторения этого паттерна.
Когда пользователь вводит «A», лучшая рекомендация должна быть «C», а если пользователь вводит «A -> C», то это должно быть «D».
В настоящее время я делаю очистку данных с использованием панд в Python и для распознавания образов, я думаю, что scikit-learn может работать (хотя и не уверен).
Есть ли какая-нибудь хорошая библиотека или алгоритм, который я могу использовать для решения этой проблемы, или есть какой-то хороший подход для решения этой проблемы?
Поскольку размер данных очень большой, я реализую его с помощью Python.