Должен ли я обрезать выбросы из входных функций - PullRequest
0 голосов
/ 24 января 2019

Почти половина моих входных столбцов имеет отклонения, например, когда среднее значение равно 19,6 , максимальное значение равно 2908.0 .Это нормально или я должен урезать их до mean + std?

              msg_cnt_in_x  msg_cnt_in_other         msg_cnt_in_y \
count             330096.0           330096.0            330096.0   
mean                  19.6                2.6                38.3   
std                   41.1                8.2                70.7   
min                    0.0                0.0                 0.0   
25%                    0.0                0.0                 0.0   
50%                    3.0                1.0                 8.0   
75%                   21.0                2.0                48.0   
max                 2908.0             1296.0              4271.0

1 Ответ

0 голосов
/ 24 января 2019

На это нет общего ответа.Это очень сильно зависит от вашего зонда и набора данных.

Вам следует изучить свой набор данных и проверить, действительно ли эти точки данных выбросов являются действительными и важными.Если они вызваны ошибками во время сбора данных, вы должны удалить их.Если они действительны, то вы можете ожидать аналогичные значения в ваших тестовых данных, и, следовательно, точки данных должны оставаться в наборе данных.

Если вы не уверены, просто протестируйте оба и выберите тот, который работает лучше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...