В рамках процесса исследовательского анализа данных (EDA) вы захотите визуализировать свои данные со всеми точками данных, идентифицировать выбросы, а затем дополнительно исследовать эти выбросы, чтобы выяснить, что с ними делать.Являются ли эти выбросы неточными значениями, которые необходимо исправить?Возможно ошибочные записи в необработанных данных?Или они являются действительными точками данных, которые могут указывать на что-то интересное?Вы также можете оценить распределение ваших данных с помощью df.describe()
Если они являются ошибками, исправьте их в своем наборе данных и не удаляйте их.Если они являются точными, действительными выбросами, просто исключите их из визуализации, чтобы получить лучшее представление об остальных ваших данных.Это помогает?