Какова необходимость удаления выбросов после нормализации? - PullRequest
0 голосов
/ 04 февраля 2020

Я хочу знать, следует ли удалять выбросы или нет, если моя случайная переменная X уже нормализована. У меня был этот вопрос, потому что все мои значения в X находятся между 0 и 1, и это не повлияет на мою переменную X, поскольку выбросы не являются полностью экстремальными.

1 Ответ

0 голосов
/ 04 февраля 2020

Что такое выброс, на самом деле?

Некоторые выбросы могут возникнуть из-за неправильного управления данными; кто-то ввел «5000», когда они действительно имели в виду «5000». Если это так, выбросы должны быть удалены, потому что они ошибочны, то есть имеют ошибку измерения.

Однако выбросы также могут иметь другое значение. Скажем, у вас есть образец некоторой переменной X, которая кажется стандартно нормально распределенной. Однако в вашем наборе данных у вас также есть некоторые очень высокие / низкие, что кажется менее вероятным в предположении нормальности. В этом случае некоторые люди склонны игнорировать эти очень высокие / низкие значения, которые я лично считаю неправильными - поскольку они кажутся наиболее информативными с точки зрения реального процесса генерации данных (при условии, что мы можем исключить ошибку измерения в качестве источник их значений).

Надеюсь, я смог вам помочь.

...