Как удалить выбросы из набора данных, используя расстояние Кука? - PullRequest
0 голосов
/ 13 сентября 2018

Мы обязаны удалить выбросы / влиятельные точки из набора данных в модели.У меня есть 400 наблюдения и 5 пояснительные переменные.

Я пробовал это:

Outlier <- as.numeric(names (cooksdistance)[(cooksdistance > 4 / sample_size)))

Где расстояние Кука - это расчетное расстояние Кука для модели.

Проблема в том, что это не дает мне фактические выбросы.

1 Ответ

0 голосов
/ 30 сентября 2018

В формуле, которую вы использовали для выбора влиятельных наблюдений, условие должно быть следующим: если наблюдение имеет расстояние Кука более чем в 4 раза больше расстояния Кука, это означает, что оно может считаться существенным (возможно, выбросом).

Расстояние Кука или D Кука - это обычно используемая оценка влияния точки данных
при выполнении регрессионного анализа методом наименьших квадратов.

В практическом обычном минимум Анализ квадратов, расстояние Кука можно использовать несколькими способами: для указания влиятельных данных> точек, которые особенно стоит проверить на достоверность; или указать регионы пространство для проектирования, где было бы хорошо иметь возможность получать больше точек данных.

В общем, те наблюдения, которые имеют расстояние повара больше среднего в 4 раза может быть классифицировано как влиятельны. Это не жесткая граница.

См., Например, идентификацию влиятельных наблюдений для ozone набора данных:

ozone <- read.csv("http://rstatistics.net/wp-content/uploads/2015/09/ozone.csv")
m <- lm(ozone_reading ~ ., data=ozone)
cooksdistance <- cooks.distance(m)

influential <- as.numeric(names(cooksdistance)[(cooksdistance > 4 * mean(cooksdistance, na.rm = TRUE))]) 

ozone[influential, ]
#     Month Day_of_month Day_of_week ozone_reading pressure_height Wind_speed Humidity Temperature_Sandburg Temperature_ElMonte
# 19      1           19           1          4.07            5680          5       73                   52               56.48
# 23      1           23           5          4.90            5700          5       59                   69               51.08
# 58      2           27           5         22.89            5740          3       47                   53               58.82
# 133     5           12           3         33.04            5880          3       80                   80               73.04
# 135     5           14           5         31.15            5850          4       76                   78               71.24
# 149     5           28           5          4.82            5750          3       76                   65               51.08
# 243     8           30           1         37.98            5950          5       62                   92               82.40
# 273     9           29           3          4.60            5640          5       93                   63               54.32
# 286    10           12           2          7.00            5830          8       77                   71               67.10
#     Inversion_base_height Pressure_gradient Inversion_temperature Visibility
# 19                    393               -68                 69.80         10
# 23                   3044                18                 52.88        150
# 58                    885                -4                 67.10         80
# 133                   436                 0                 86.36         40
# 135                  1181                50                 79.88         17
# 149                  3644                86                 59.36         70
# 243                   557                 0                 90.68         70
# 273                  5000                30                 52.70         70
# 286                   337               -17                 81.14         20

Интерпретация:

Строки 58, 133, 135 имеют очень высокий уровень озона.

Строки 23, 135 и 149 имеют очень высокий Inversion_base_height.

Строка 19 имеет очень низкий градиент давления.

...