Только слова-слова не помогут вам в этом.
В то время как их сходства и относительные ориентации обучаются путем предсказания словосочетаний, сами по себе векторы не являются четким ориентиром для слов, которые встречаются вместе. И словосочетания определенно не кодируют правила грамматического использования, поскольку простая близость, а не правильное упорядочение, является обычным обучающим вводом.
Тем не менее, если вам довелось использовать gensim
реализацию Python *1005* и если вы обучали полную модель самостоятельно (в отличие от использования готовых предварительно подготовленных векторов), то вся эта модель в некоторых режимах будет поддерживать метод score()
, который оценивает набор предложений о том, насколько они соответствуют ожиданиям модели. Он не будет сообщать вам, является ли текст «правильным», просто ли он «знакомым» - и был 1-й предложен / добавлен как возможный способ применения многоконтрастных Word2Vec
моделей для помощи в задачах классификации , Вы можете прочитать больше об этом методе и найти ссылки на исследовательскую работу, которая мотивировала его и демонстрационное использование, в документации метода:
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score