Что такое выброс, на самом деле?
Некоторые выбросы могут возникнуть из-за неправильного управления данными; кто-то ввел «5000», когда они действительно имели в виду «5000». Если это так, выбросы должны быть удалены, потому что они ошибочны, то есть имеют ошибку измерения.
Однако выбросы также могут иметь другое значение. Скажем, у вас есть образец некоторой переменной X, которая кажется стандартно нормально распределенной. Однако в вашем наборе данных у вас также есть некоторые очень высокие / низкие, что кажется менее вероятным в предположении нормальности. В этом случае некоторые люди склонны игнорировать эти очень высокие / низкие значения, которые я лично считаю неправильными - поскольку они кажутся наиболее информативными с точки зрения реального процесса генерации данных (при условии, что мы можем исключить ошибку измерения в качестве источник их значений).
Надеюсь, я смог вам помочь.