Я тренировал Word2Ve c Модель и пытаюсь сформулировать математическую функцию наиболее сходных функций. Я думал о наборе, которое содержит n наиболее похожих слов, данное слово в качестве ссылки.
Существует ли где-нибудь хорошее определение?
Вы можете просмотреть исходный код, который реализует most_similar() для абстракции KeyedVectors библиотеки gensim Python библиотеки (для хранения и выполнения общих действий над наборами векторов слов):
most_similar()
KeyedVectors
gensim
https://github.com/RaRe-Technologies/gensim/blob/fbc7d0952f1461fb5de3f6423318ae33d87524e3/gensim/models/keyedvectors.py#L491
Грубо говоря, сначала вычисляется целевой вектор - путем объединения любых positive & negative примеров, предоставленных вызывающей стороной. В общем случае это может быть только один («положительный») вектор-слово.
positive
negative
Затем он вычисляет косинусное сходство с любым другим вектором, сортирует эти сходства по наибольшему и возвращает результаты с наибольшим N.