Я хочу классифицировать некоторые предложения на основе их семантического значения. Как я могу использовать Doc2Vec в этом? Или есть лучший подход, чем этот? - PullRequest
0 голосов
/ 05 сентября 2018

Я хочу реализовать doc2vec в различных обзорах, которые мы извлекли из источника. И я хочу классифицировать эти обзоры по различным классам, определяемым пользователем. Как я могу это сделать?

1 Ответ

0 голосов
/ 05 сентября 2018

Я считаю это одним из интересных вопросов. Я дам вам несколько подходов в зависимости от объема наблюдений / обзоров.

  • Вы можете применить LSA (SVD к DTM (векторы инцидентности или векторы TF-IDF), в качестве выходных данных вы получите три вектора - USV. Транспонирование V - это вложение предложения).

Используйте эти вложения в качестве входных данных для вашей модели для классификации.

Я рекомендую использовать LSA, когда у вас большой размер корпуса.

Ресурсы : ссылка

  • Аналогичным образом, вместо использования LSA, вы можете использовать предварительно обученные вложения, скажем, перчатки, здесь вы будете получать вложения слов для создания векторов документов с использованием метода обратной взвешенной частоты. Используйте этот документ векторы для классификации.

Ресурсы : ссылка

...