Одних векторов слов недостаточно для классификации документов.Они могут помочь в определенных подходах.
Ваша главная цель - «выучить word2vec» или «провести эффективную классификацию документов»?Потому что, если это последнее, вы должны искать онлайн-классы / учебные пособия по классификации документов - например, те, которые обучают использованию алгоритмов scikit-learn - и следовать им.Вы только потом попадете в word2vec, если это необходимо для определенных проблем.
Например, большинство вводных алгоритмов классификации спама не используют word2vec, поэтому добавление этого в качестве дополнительной вещи для изучения, когда впервые в текстовом обучении, является дополнительным осложнением.(В конце концов, все же хорошо учиться, но лучше начать с простого.)
Тексты из одного слова могут быть мусором или не интерпретируемыми без особого контекста.(Может быть что-то не так в конструкции корпуса, если у вас есть документы из одного слова - и если вы пытались решить реальную проблему сообщества / бизнеса, то правильным решением было бы вернуться к исходному источнику данных и попробоватьчтобы извлечь лучшие примеры с большим количеством контекста - как, например, носитель текста, или любые сообщения, на которые он отвечал, и т. д.)слово как "husgmabb"?Программное обеспечение для понимания текста обычно работает на хуже , чем люди, знакомые с проблемной областью, поэтому, если вы не можете интерпретировать «husgmabb», то и алгоритм не подойдет.(Однако, если в обучающих данных есть достаточно примеров загадочного слова, чтобы человек мог его понять, если бы у них было время прочитать их все, тогда, возможно, алгоритм также может прийти к определенному пониманию.)
Таким образом, если это «одно слово» также появляется во многих других примерах, и эти другие примеры помогают прояснить, что это значит, то может появиться некоторая предсказательная сила от того, что оно появляется само по себе.Но это зависит от множества деталей, которыми вы должны поделиться, задавая более конкретные вопросы, которые объясняют больше о ваших целях, о том, что вы пробовали, и о том, что любой существующий код не выполняет то, что вы ожидаете.