Почему я получаю отрицательное значение для индекса Данна, когда использую косинусное сходство? - PullRequest
0 голосов
/ 12 июня 2019

Я сгруппировал нормализованные данные с помощью k-средних.Я использовал разные матрицы сходства, такие как евклидовы, манхэттенские и косинусные, и получил отрицательное значение для индекса Данна, когда использовал сходство по косинусам.Я читал, что значение индекса Данна колеблется от 0 до бесконечности.Правильно ли использовать косинусное сходство для вычисления индекса Данна?

Я использовал эту реализацию индекса Данна .

1 Ответ

0 голосов
/ 12 июня 2019

Евклидов и Манхэттен - это расстояния. Их можно использовать для измерения сходства, но они удовлетворяют требованиям к расстоянию. Самое главное, отрицательного расстояния не существует. 0 означает идентичность, и чем больше значение, тем меньше они похожи.

Косинусное сходство определяется как косинус угла между двумя векторами. Два параллельных вектора имеют сходство 1, и чем больше разница в углах, тем меньше сходство. Если два вектора противоположны, косинусное сходство равно -1.

Таким образом, косинусное сходство - это не расстояние. И поэтому вы не можете использовать его там, где требуется расстояние, например, для расчета индекса Данна.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...