Использование word2vec в предложении - PullRequest
0 голосов
/ 13 апреля 2019

Я пытаюсь сгенерировать вероятность того, что данное предложение будет правильным.

У меня есть word2vec для каждого токена в языке, и я хочу предсказать вероятность того, что предложение будет правильным. Я не могу создать подходящую модель. Как я могу продолжить?

1 Ответ

1 голос
/ 14 апреля 2019

Только слова-слова не помогут вам в этом.

В то время как их сходства и относительные ориентации обучаются путем предсказания словосочетаний, сами по себе векторы не являются четким ориентиром для слов, которые встречаются вместе. И словосочетания определенно не кодируют правила грамматического использования, поскольку простая близость, а не правильное упорядочение, является обычным обучающим вводом.

Тем не менее, если вам довелось использовать gensim реализацию Python *1005* и если вы обучали полную модель самостоятельно (в отличие от использования готовых предварительно подготовленных векторов), то вся эта модель в некоторых режимах будет поддерживать метод score(), который оценивает набор предложений о том, насколько они соответствуют ожиданиям модели. Он не будет сообщать вам, является ли текст «правильным», просто ли он «знакомым» - и был 1-й предложен / добавлен как возможный способ применения многоконтрастных Word2Vec моделей для помощи в задачах классификации , Вы можете прочитать больше об этом методе и найти ссылки на исследовательскую работу, которая мотивировала его и демонстрационное использование, в документации метода:

https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score

...