Нормализует сходство между векторами слов и векторами документов? - PullRequest
0 голосов
/ 15 мая 2018

Косинусное сходство широко используется для измерения сходства между двумя векторами, где два могут быть векторами слова или векторами документа.

Другие, такие как Манхэттен, Евклид, Минковский и т. Д., Также популярны.

Косинусное сходство дает число от 0 до 1, поэтому оно выглядит, как будто это процент от сходства между двумя векторами. Евклидово дает некоторое число в большом изменении.

.

Когда косинусное сходство между двумя векторами дает 0,78ххх, люди, включая меня, вероятно, ожидают, что «эти два вектора похожи на 78%!», Что не является «степенью сходства» двух векторов.

.

В отличие от косинусного сходства, Минковский, Манхэттен, Канберра и т. Д. Даже дают некоторое большое число, которое не находится в диапазоне от 0 до 1.

For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)

.

Я ожидаю, что могут быть некоторые методы нормализации, широко используемые для представления фактической "степени сходства" между двумя векторами. Пожалуйста, предоставьте, если вы знаете что-нибудь. Если бы были статьи или статьи, было бы намного лучше.

For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)

Я не ожидаю от вас упоминания о числе софтмакс, потому что я читал статью о том, что само число софтмакс не должно рассматриваться как фактический процент.

1 Ответ

0 голосов
/ 15 мая 2018

Вы должны строго определить, что вы подразумеваете под «фактической« степенью сходства »», чтобы любой ответ был возможен.

Каждая из этих мер может быть полезной. Каждый может быть масштабирован до значения от 0,0 до 1,0, если вам нужны вещи в этом диапазоне. Но это не обязательно делает любого из них «процентным сходством», потому что «процентное сходство» не является концепцией со строгим значением.

...