В формуле, которую вы использовали для выбора влиятельных наблюдений, условие должно быть следующим: если наблюдение имеет расстояние Кука более чем в 4 раза больше расстояния Кука, это означает, что оно может считаться существенным (возможно, выбросом).
Расстояние Кука или D Кука - это обычно используемая оценка влияния точки данных
при выполнении регрессионного анализа методом наименьших квадратов.
В практическом обычном минимум
Анализ квадратов, расстояние Кука можно использовать несколькими способами: для указания влиятельных данных> точек, которые особенно стоит проверить на достоверность; или указать регионы
пространство для проектирования, где было бы хорошо иметь возможность получать больше точек данных.
В общем, те наблюдения, которые имеют
расстояние повара больше среднего в 4 раза может быть классифицировано как
влиятельны. Это не жесткая граница.
См., Например, идентификацию влиятельных наблюдений для ozone
набора данных:
ozone <- read.csv("http://rstatistics.net/wp-content/uploads/2015/09/ozone.csv")
m <- lm(ozone_reading ~ ., data=ozone)
cooksdistance <- cooks.distance(m)
influential <- as.numeric(names(cooksdistance)[(cooksdistance > 4 * mean(cooksdistance, na.rm = TRUE))])
ozone[influential, ]
# Month Day_of_month Day_of_week ozone_reading pressure_height Wind_speed Humidity Temperature_Sandburg Temperature_ElMonte
# 19 1 19 1 4.07 5680 5 73 52 56.48
# 23 1 23 5 4.90 5700 5 59 69 51.08
# 58 2 27 5 22.89 5740 3 47 53 58.82
# 133 5 12 3 33.04 5880 3 80 80 73.04
# 135 5 14 5 31.15 5850 4 76 78 71.24
# 149 5 28 5 4.82 5750 3 76 65 51.08
# 243 8 30 1 37.98 5950 5 62 92 82.40
# 273 9 29 3 4.60 5640 5 93 63 54.32
# 286 10 12 2 7.00 5830 8 77 71 67.10
# Inversion_base_height Pressure_gradient Inversion_temperature Visibility
# 19 393 -68 69.80 10
# 23 3044 18 52.88 150
# 58 885 -4 67.10 80
# 133 436 0 86.36 40
# 135 1181 50 79.88 17
# 149 3644 86 59.36 70
# 243 557 0 90.68 70
# 273 5000 30 52.70 70
# 286 337 -17 81.14 20
Интерпретация:
Строки 58, 133, 135 имеют очень высокий уровень озона.
Строки 23, 135 и 149 имеют очень высокий Inversion_base_height.
Строка 19 имеет очень низкий градиент давления.