Выявление выбросов в данных - PullRequest
0 голосов
/ 17 июня 2020

У меня есть программа, которая удаляет выбросы. В наборе данных выброс - это значение, которое более чем на 2 стандартных отклонения больше или меньше среднего. Есть ли способ записать / сохранить, какие точки данных считались выбросами, чтобы мы могли посмотреть на них позже?

1 Ответ

1 голос
/ 18 июня 2020

Чтобы определить случаи, когда значение отстоит от среднего более чем на 2 стандартных, вы можете сделать это:

aggregate 
    /out=* mode=addvariables /break= /yourvrS=SD(yourvr) /yourvrM=mean(yourvr).
compute outlier = abs(yourvr - yourvrM) > 2 * yourvrS .

Новая переменная outlier получит значение 1 для значений выбросов.

...