Я использовал knn
от Base of R, чтобы предсказать класс наблюдения. Есть 46 переменных, которые имеют двоичную кодировку, и я добавил небольшой шум. Я всегда получаю первую метку в качестве прогнозируемого значения, когда я устанавливаю k = 1. Я проверил расстояния с помощью функции dist()
, и есть другие наблюдения в наборе обучающих данных, которые имеют меньшее евклидово расстояние до теста. Независимо от того, какую метку я ставлю первой (порядок) в поезде, она возвращается в качестве предсказанной метки, когда k = 1.
Есть идеи, почему это происходит?