Слово отсутствует в словаре GoogleNews-vectors-positive300.bin - PullRequest
0 голосов
/ 24 апреля 2020

Я пытаюсь увидеть, какая предварительно обученная модель включает в себя общие фразы в новостях, и я подумал, что GoogleNews-vectors-positive300.bin должен быть всеобъемлющим, но оказалось, что он даже не включает deep_learning, machine_learning, social_network, социальная ответственность. Какая предварительно обученная модель может включать те слова, которые часто встречаются в новостях, в публикациях c в отчетах?

import gensim

# Load Google's pre-trained Word2Vec model.
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)

model.similarity('deep_learning', 'machine_learning')

Ответы [ 2 ]

0 голосов
/ 25 апреля 2020

Векторы GoogleNews были обучены Google примерно в 2012-2013 годах на большом внутреннем корпусе новостных статей.

Кроме того, продвижение отдельных слов в многословные фразы, по-видимому, было сделано с использованием чисто статистического анализа совпадений (аналогичного тому, который был реализован в классе gensim Phrases) - так часто это не произойдет соответствовать восприятию сущностей / концепций на уровне человека, пропуская некоторые словосочетания, чрезмерно комбинируя другие.

Итак, понятия, которые были затемнены (или даже еще не придуманы!) или редко освещались в новостных статьях, будут быть пропущенным или недопредставленным.

Обучение ваших собственных векторов текста из вашей собственной области интересов часто является наилучшим как для охвата, так и для обеспечения того, чтобы векторы отражали слова / фразы, которые преобладают в ваших текстах, а не общие новости или справочные материалы.

0 голосов
/ 24 апреля 2020

Это MWE (выражения из нескольких слов), которые вряд ли будут включены. Вы можете теоретически смоделировать их, взяв среднее значение векторов, полученных для каждого из слов, составляющих MWE.

Различные соображения относительно операций, применимых для составления векторов и полученных результатов: word2ve c - что лучше? добавить, объединить или усреднить векторы слов?

...