расстояния больше 1 с ближайшими соседями и тдидф скикит учатся - PullRequest
0 голосов
/ 15 января 2020

Если используются параметры по умолчанию для TfidfVectorizer и NearestNeighbors с scikit learn, ожидается, что все векторы будут нормализованы до длины 1, а следовательно, расстояние == косинусное расстояние, равное 1 - косинусное сходство. Так что, если сходство косинусов находится в диапазоне [0-1], когда я получу расстояние, которое больше 1? Для объекта по сравнению с самим собой, я получаю расстояние 0, это то, что я ожидаю. Для пустой записи, по сравнению с непустой записью, я получаю 1 (хорошо, может быть предметом определения). Другие записи всегда> 1. Нужна некоторая помощь, чтобы понять и, возможно, руководство, как поступить иначе, чтобы иметь что-то ближе к (моей) интуиции. БР, Орен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...