мера расстояния, используемая для расчета k ближайшего соседа - PullRequest
0 голосов
/ 28 декабря 2018

Я читаю о k ближайшем соседе, и мера расстояния, приведенная в примере, такая, как показано ниже.

Он говорит, что Ri - это диапазон i-го компонента.Я не понимаю, какое расстояние используется здесь?Я понимаю евклидово расстояние, но это не так.Не могли бы вы помочь объяснить, что такое «диапазон i-го компонента» и что это за мера расстояния?Большое спасибо.Пожалуйста, дайте мне знать, если вам нужна дополнительная информация.

enter image description here

Ответы [ 2 ]

0 голосов
/ 28 декабря 2018

Формула дана только для евклидова расстояния, за исключением того, что нормализация данных выполняется на месте при расчете расстояния.

Нормализация данных необходима для KNN, потому что если этого не сделать, то характеристики с более высокимзначения будут доминировать при принятии решения о выходе.Приведенная выше формула для KNN пропускает явный шаг нормализации и делает это на месте при расчете расстояния.

ПРИМЕЧАНИЕ: - Здесь i обозначает столбец i th , а не строку.

Здесь приведено фактическое объяснение формулы:

R i = x i max - x i min

При нормализации мы преобразуем каждую строку, используя следующее преобразование:

x i = x i / (x i max - x i min )

Итак, при вычислении расстоянияформула эффективна,

d 2 = ((a 1 - x min ) - (b 1 -x min )) 2 / R 1 2 + ((a 2 - x min) - (b 2 - x min )) 2 / R 2 2 +... + ((a n - x min ) - (b n - x min )) 2 / R n 2

, что эффективно,

d 2 = (a 1 - b 1 ) 2 / R 1 2 + (a 2 - b 2 ) 2 / R 2 2 + ... + (a n - b n ) 2 /R n 2

, что показано на изображении выше.

0 голосов
/ 28 декабря 2018

Диапазон - это разница между максимальным и минимальным значением этой функции (столбца) в наборе обучающих данных.

Вы можете думать об этом как о L1 норме, поскольку мы берем только абсолютное расстояние между максимумом и минимумом.Обычно это делается для нормализации расчета расстояния между объектами, чтобы некоторые объекты не доминировали при расчете расстояния.

...