Метод most_similar()
может принимать несколько слов в качестве входных данных, в идеале в качестве именованного параметра positive
.(Это как в «положительных примерах», противопоставляемых «отрицательным примерам», которые также могут быть предоставлены через параметр negative
и полезны при запросе most_similar()
для решения проблем аналогии.)
Когда он получает несколько слов, он возвращает результаты, которые являются ближайшими к среднему значению всех предоставленных слов.Это может быть несколько связано с целым предложением, но такое среднее для всех слов векторов является довольно слабым способом суммирования предложения.
Несколько слов должны быть представлены в виде списка строк, not Необработанная строка слов, разделенных пробелом.Так, например:
sims = model.wv.most_similar(positive=['the', 'dog', 'is', 'on', 'the', 'table'])