Я работаю над настройкой данных для неконтролируемого алгоритма обучения. Целью проекта является объединение (кластеризация) разных клиентов в зависимости от их поведения на веб-сайте. Очевидно, что какой-то алгоритм кластеризации лучше всего подходит для обнаружения закономерностей в данных, которые мы не можем видеть как люди.
Однако база данных содержит несколько строк для каждого клиента (в хронологическом порядке) для каждого действия, которое клиент предпринял на веб-сайте для этого посещения. Например, клиент с идентификатором # 123 щелкнул по странице 1 во время X, и это будет строка в базе данных, а затем тот же клиент щелкнул по другой странице во время Y. Это создаст другую строку в базе данных.
Мой вопрос: какой алгоритм или подход вы бы использовали для кластеризации в данном сценарии? K-средства действительно популярны для такого типа проблем, но я не знаю, возможно ли использовать в этой ситуации из-за группировки. Возможно ли как-то выполнить кластерный анализ вокруг одного конкретного идентификатора, который включает в себя несколько строк?
Любая помощь / направление обучения без присмотра, которое я должен получить, приветствуется.