Векторы слов хранятся в большой таблице в модели, и когда вы смотрите вверх cat
, вы всегда получаете один и тот же вектор из этой таблицы.
Контекстно-зависимые тензоры представляют собой плотные векторы объектов, вычисленные с помощьюмодели в конвейере при анализе текста. Вы получите разные векторы для cat
в разных текстах. Если вы используете en_core_web_sm
, токен cat
в I have a cat
не будет иметь тот же вектор, что и в The cat is black
. Наличие контекстно-зависимых тензоров, когда модель не включает векторы слов, позволяет функциям подобия работать до некоторой степени, но результаты сильно отличаются от векторов слов.
В большинстве случаев вы, вероятно, захотитеиспользуйте модель _md
или _lg
с векторами слов.