Можно ли кластеризовать данные с сгруппированными строками данных в процессе обучения без учителя? - PullRequest
2 голосов
/ 16 мая 2019

Я работаю над настройкой данных для неконтролируемого алгоритма обучения. Целью проекта является объединение (кластеризация) разных клиентов в зависимости от их поведения на веб-сайте. Очевидно, что какой-то алгоритм кластеризации лучше всего подходит для обнаружения закономерностей в данных, которые мы не можем видеть как люди.

Однако база данных содержит несколько строк для каждого клиента (в хронологическом порядке) для каждого действия, которое клиент предпринял на веб-сайте для этого посещения. Например, клиент с идентификатором # 123 щелкнул по странице 1 во время X, и это будет строка в базе данных, а затем тот же клиент щелкнул по другой странице во время Y. Это создаст другую строку в базе данных.

Мой вопрос: какой алгоритм или подход вы бы использовали для кластеризации в данном сценарии? K-средства действительно популярны для такого типа проблем, но я не знаю, возможно ли использовать в этой ситуации из-за группировки. Возможно ли как-то выполнить кластерный анализ вокруг одного конкретного идентификатора, который включает в себя несколько строк?

Любая помощь / направление обучения без присмотра, которое я должен получить, приветствуется.

1 Ответ

0 голосов
/ 17 мая 2019

Короче говоря,

  1. Изучение встраивания (представления) каждого события фиксированной длины;
  2. Изучение способа объединения последовательности таких вложений в одно представление для каждогособытие, затем используйте ваши любимые неконтролируемые методы.

Для (1) вы можете сделать это либо вручную, либо использовать кодер / декодер;Для (2) есть ряд вещей, которые вы можете сделать, от простого усреднения вложений из каждого события до обучения кодера-декодера восстановлению исходной последовательности событий и принятию промежуточного представления (что декодер использует для восстановления исходной последовательности).

Хорошее прочтение на эту тему (хотя и старое; теперь у вас также есть опция Transformer Network ):

Представления для языка: из WordВложения в предложения Значения

...