В последнее время я работаю над проектом интеллектуального анализа текста.Моя цель - объединить комментарии на основе их тем (содержания).
Я сам попробовал модель, основанную на: https://www.kaggle.com/liananapalkova/simply-about-word2vec. Кажется, что создание векторов слов определенно может привести меня к моей цели, я думал использовать doc2vec и создавать векторы, которые представляют каждый из комментариеви выполнить k-средних и другие неконтролируемые методы обучения кластеризации (то есть обрабатывать это как числовой).
Затем я смотрю кое-что о LDA, я обнаружил, что использовать множество подтем для описания документа (комментарий в моем случае) также имеет смысл, в конце концов, я дам LDA назначить некоторые темы для каждого из моих комментариев.
Мой вопрос: кажется, что word2vec / doc2vec использует некоторые токены для представления слова, в то время как LDA использует некоторые темы для представления этих документов, они звучат очень похоже!Могу ли я объединить технику word2vec и LDA вместе, чтобы собрать свои группы комментариев, в то же время назначить каждому кластеру несколько тем?
Как это работает?Я смотрю на Kaggle, но не могу найти похожие проекты ...