Выбросы
Так же, как и пропущенные значения, ваши данные могут также содержать значения, которые сильно отличаются от большинства других ваших данных.Эти точки данных называются «выбросами».Чтобы найти их, вы можете проверить распределение ваших отдельных переменных с помощью блочного графика или вы можете сделать точечный график ваших данных, чтобы идентифицировать точки данных, которые не лежат в «ожидаемой» области графика.
Причины выбросов в ваших данных могут различаться - от системных ошибок до людей, вмешивающихся в данные путем ввода или обработки данных, но важно учитывать влияние, которое они могут оказать на ваш анализ: они изменятРезультаты статистических тестов, таких как стандартное отклонение, среднее значение или медиана, могут потенциально снизить нормальность и повлиять на результаты статистических моделей, таких как регрессия или ANOVA.
Чтобы иметь дело с выбросами, вы можете либо удалить, либо преобразоватьили вменяйте их: решение снова будет зависеть от контекста данных.Вот почему так же важно понять ваши данные и определить причину выбросов:
- Если значение выброса связано с ошибками ввода или обработки данных, вы можете удалить это значение.
- Вы можете преобразовать выбросы, присвоив веса своим наблюдениям, или использовать натуральный логарифм, чтобы уменьшить разброс, который вызывают значения выбросов в вашем наборе данных.
- Также как и пропущенные значения, вы также можете использовать вменениеметоды для замены экстремальных значений ваших данных медианными, средними или модовыми значениями.
Вы можете использовать функции, которые были описаны в предыдущем разделе, для работы с выбросами в ваших данных.
Следующие ссылки будут полезны для вас:
Очистка данных Python
Способы обнаружения и устранения выбросов