Наиболее связанный термин для данного предложения, nltk word2vec - PullRequest
0 голосов
/ 03 декабря 2018

Имея обученную модель word2vec, есть ли способ проверить, какое слово в его словаре наиболее «связано» со всем предложением?

Я искал что-то похожее на

model.wv.most_similar("the dog is on the table")

, что может привести к ["dog", "table"]

1 Ответ

0 голосов
/ 03 декабря 2018

Метод most_similar() может принимать несколько слов в качестве входных данных, в идеале в качестве именованного параметра positive.(Это как в «положительных примерах», противопоставляемых «отрицательным примерам», которые также могут быть предоставлены через параметр negative и полезны при запросе most_similar() для решения проблем аналогии.)

Когда он получает несколько слов, он возвращает результаты, которые являются ближайшими к среднему значению всех предоставленных слов.Это может быть несколько связано с целым предложением, но такое среднее для всех слов векторов является довольно слабым способом суммирования предложения.

Несколько слов должны быть представлены в виде списка строк, not Необработанная строка слов, разделенных пробелом.Так, например:

sims = model.wv.most_similar(positive=['the', 'dog', 'is', 'on', 'the', 'table'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...