Question

Я экспериментирую с питоном и анализом данных.Я собрал твиты, посчитал разных пользователей и суммировал их по группам.Затем я рассчитал процент пользователей на население страны.Чтобы мои графики выглядели лучше, я стандартизировал свои данные, используя формулу z-показателя.Теперь я наблюдаю, что у меня есть несколько выбросов, которые разрушают мои графики, поэтому я исключу их.Мой вопрос заключается в том, должен ли я исключить их из исходного набора данных, а затем повторно стандартизировать мои данные, или правильно просто исключить стандартизированную форму из моего анализа и перейти к значениям, которые я уже рассчитал?

ccaddel · Answer 1 · 12 июня 2018

В рамках процесса исследовательского анализа данных (EDA) вы захотите визуализировать свои данные со всеми точками данных, идентифицировать выбросы, а затем дополнительно исследовать эти выбросы, чтобы выяснить, что с ними делать.Являются ли эти выбросы неточными значениями, которые необходимо исправить?Возможно ошибочные записи в необработанных данных?Или они являются действительными точками данных, которые могут указывать на что-то интересное?Вы также можете оценить распределение ваших данных с помощью df.describe()

Если они являются ошибками, исправьте их в своем наборе данных и не удаляйте их.Если они являются точными, действительными выбросами, просто исключите их из визуализации, чтобы получить лучшее представление об остальных ваших данных.Это помогает?

Повторно стандартизировать данные после исключения выбросов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Повторно стандартизировать данные после исключения выбросов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы