Я пытаюсь выполнить довольно большой учебный проект без надзора и не уверен, как правильно использовать word2vec.Мы пытаемся объединить группы клиентов на основе статистики о них и о том, какие действия они предпринимают на нашем веб-сайте.Кто-то порекомендовал мне использовать word2vec и рассматривать каждое действие, которое пользователь выполняет как слово в «предложении».Причина, по которой этот шаг необходим, заключается в том, что один клиент может создать несколько строк в базе данных (примерно такая же статистика, но новая строка для каждого действия на веб-сайте в хронологическом порядке).Чтобы выполнить kmeans для этих данных, нам нужно сократить их до одной строки для каждого идентификатора клиента.Отсюда предыдущая идея свернуть действия как слова в предложении «описывающие действия пользователя»
Мой вопрос: я сталкивался с бесчисленными учебниками и онлайн-ресурсами, которые показывают вам, как использовать word2vec (в сочетании с kmeans) кластеризовать слова самостоятельно, но ни один из них не показывает, как использовать вывод word2vec как часть более крупной модели kmeans.Мне нужно иметь возможность использовать модель word2vec наряду с другими ценностями о клиенте.Как я должен идти об этом?Я использую python для кластеризации, если вы хотите быть конкретным с примерами кодирования, но я также мог бы просто упустить что-то супер очевидное и высокий уровень.Кажется, word2vec выводит векторы, но kmeans нужны прямые числа для работы, нет?Любое руководство приветствуется.