Я новичок в мире ML и интеллектуального анализа данных и ищу помощь и руководство, чтобы найти необычное поведение в моем файле журнала.
Предполагается, что у меня есть файл cvs, который регистрирует время начала и окончания сеансов пользователейвремя и номера политик, с которыми они работали, аналогичны приведенным ниже.
Start_date, username, end_date, Policy_numbers
2018-01-02 10:01, user1, 2018-01-02 10:10,PO-123
2018-01-02 10:05, user2, 2018-01-02 10:20, PO-456
2018-01-02 10:11, user1, 2018-01-02 10:45, PO-789 |PO-999 (здесь есть | разделитель)
Существует ли какая-либо библиотека / модуль / код Java или Python или приложение с открытым исходным кодом для идентификации шаблонов, таких как: большинство пользователей вошли в систему с 10:00 до 17:00, среднее числоколичество сеансов в день в месяце, средняя продолжительность сеанса и…, Я ожидаю, что приложение распознает различные шаблоны и предложит мне их в списке или таким образом, чтобы я мог выбрать те, которые важны для бизнеса.
(Если я распознаю шаблон, то смогу найти ответы по некоторым запросам и не буду нуждаться в распознавании шаблонов - это будет легко сделать)
Тогда этоесть способ обучить систему по этим признанным шаблонам, чтобы находить необычные поведения, такие как: найти пользователей, которые вошли в систему после 17:00, найти сеансы, которые заняли больше времени, чем обычно, и ...
Спасибо за любую мысль.