Косинусное сходство широко используется для измерения сходства между двумя векторами, где два могут быть векторами слова или векторами документа.
Другие, такие как Манхэттен, Евклид, Минковский и т. Д., Также популярны.
Косинусное сходство дает число от 0 до 1, поэтому оно выглядит, как будто это процент от сходства между двумя векторами. Евклидово дает некоторое число в большом изменении.
.
Когда косинусное сходство между двумя векторами дает 0,78ххх, люди, включая меня, вероятно, ожидают, что «эти два вектора похожи на 78%!», Что не является «степенью сходства» двух векторов.
.
В отличие от косинусного сходства, Минковский, Манхэттен, Канберра и т. Д. Даже дают некоторое большое число, которое не находится в диапазоне от 0 до 1.
For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)
.
Я ожидаю, что могут быть некоторые методы нормализации, широко используемые для представления фактической "степени сходства" между двумя векторами. Пожалуйста, предоставьте, если вы знаете что-нибудь. Если бы были статьи или статьи, было бы намного лучше.
For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)
Я не ожидаю от вас упоминания о числе софтмакс, потому что я читал статью о том, что само число софтмакс не должно рассматриваться как фактический процент.