Data Mining и распознавание образов в CSV-файле (Python ML) - PullRequest
0 голосов
/ 12 июня 2018

Я новичок в мире ML и интеллектуального анализа данных и ищу помощь и руководство, чтобы найти необычное поведение в моем файле журнала.

Предполагается, что у меня есть файл cvs, который регистрирует время начала и окончания сеансов пользователейвремя и номера политик, с которыми они работали, аналогичны приведенным ниже.

Start_date, username, end_date, Policy_numbers
2018-01-02 10:01, user1, 2018-01-02 10:10,PO-123
2018-01-02 10:05, user2, 2018-01-02 10:20, PO-456
2018-01-02 10:11, user1, 2018-01-02 10:45, PO-789 |PO-999 (здесь есть | разделитель)

Существует ли какая-либо библиотека / модуль / код Java или Python или приложение с открытым исходным кодом для идентификации шаблонов, таких как: большинство пользователей вошли в систему с 10:00 до 17:00, среднее числоколичество сеансов в день в месяце, средняя продолжительность сеанса и…, Я ожидаю, что приложение распознает различные шаблоны и предложит мне их в списке или таким образом, чтобы я мог выбрать те, которые важны для бизнеса.

(Если я распознаю шаблон, то смогу найти ответы по некоторым запросам и не буду нуждаться в распознавании шаблонов - это будет легко сделать)

Тогда этоесть способ обучить систему по этим признанным шаблонам, чтобы находить необычные поведения, такие как: найти пользователей, которые вошли в систему после 17:00, найти сеансы, которые заняли больше времени, чем обычно, и ...

Спасибо за любую мысль.

...