Формула дана только для евклидова расстояния, за исключением того, что нормализация данных выполняется на месте при расчете расстояния.
Нормализация данных необходима для KNN, потому что если этого не сделать, то характеристики с более высокимзначения будут доминировать при принятии решения о выходе.Приведенная выше формула для KNN пропускает явный шаг нормализации и делает это на месте при расчете расстояния.
ПРИМЕЧАНИЕ: - Здесь i
обозначает столбец i th , а не строку.
Здесь приведено фактическое объяснение формулы:
R i = x i max - x i min
При нормализации мы преобразуем каждую строку, используя следующее преобразование:
x i = x i / (x i max - x i min )
Итак, при вычислении расстоянияформула эффективна,
d 2 = ((a 1 - x min ) - (b 1 -x min )) 2 / R 1 2 + ((a 2 - x min) - (b 2 - x min )) 2 / R 2 2 +... + ((a n - x min ) - (b n - x min )) 2 / R n 2
, что эффективно,
d 2 = (a 1 - b 1 ) 2 / R 1 2 + (a 2 - b 2 ) 2 / R 2 2 + ... + (a n - b n ) 2 /R n 2
, что показано на изображении выше.