Предположим, у вас есть (wikipedia) предварительно обученная модель word2vec, и обучите ее на дополнительном корпусе (очень маленький, 1000 сцен).
Можете ли вы представить себе способ ограничить поиск векторов только "переобученным" корпусом?
Например
model.wv.similar_by_vector()
просто найдет самое близкое слово для данного вектора, независимо от того, является ли он частью корпуса Википедии или переобученной лексики.
С другой стороны, для поиска по слову существует понятие:
most_similar_to_given('house',['garden','boat'])
Я пытался тренироваться, основываясь на маленьком корпусе с нуля, и он несколько работает, как и ожидалось. Но, конечно, он мог бы быть гораздо более мощным, если назначенные векторы исходят из предварительно обученного набора.