Векторы GoogleNews
были обучены Google примерно в 2012-2013 годах на большом внутреннем корпусе новостных статей.
Кроме того, продвижение отдельных слов в многословные фразы, по-видимому, было сделано с использованием чисто статистического анализа совпадений (аналогичного тому, который был реализован в классе gensim
Phrases
) - так часто это не произойдет соответствовать восприятию сущностей / концепций на уровне человека, пропуская некоторые словосочетания, чрезмерно комбинируя другие.
Итак, понятия, которые были затемнены (или даже еще не придуманы!) или редко освещались в новостных статьях, будут быть пропущенным или недопредставленным.
Обучение ваших собственных векторов текста из вашей собственной области интересов часто является наилучшим как для охвата, так и для обеспечения того, чтобы векторы отражали слова / фразы, которые преобладают в ваших текстах, а не общие новости или справочные материалы.