Повторно стандартизировать данные после исключения выбросов? - PullRequest
0 голосов
/ 12 июня 2018

Я экспериментирую с питоном и анализом данных.Я собрал твиты, посчитал разных пользователей и суммировал их по группам.Затем я рассчитал процент пользователей на население страны.Чтобы мои графики выглядели лучше, я стандартизировал свои данные, используя формулу z-показателя.Теперь я наблюдаю, что у меня есть несколько выбросов, которые разрушают мои графики, поэтому я исключу их.Мой вопрос заключается в том, должен ли я исключить их из исходного набора данных, а затем повторно стандартизировать мои данные, или правильно просто исключить стандартизированную форму из моего анализа и перейти к значениям, которые я уже рассчитал?

1 Ответ

0 голосов
/ 12 июня 2018

В рамках процесса исследовательского анализа данных (EDA) вы захотите визуализировать свои данные со всеми точками данных, идентифицировать выбросы, а затем дополнительно исследовать эти выбросы, чтобы выяснить, что с ними делать.Являются ли эти выбросы неточными значениями, которые необходимо исправить?Возможно ошибочные записи в необработанных данных?Или они являются действительными точками данных, которые могут указывать на что-то интересное?Вы также можете оценить распределение ваших данных с помощью df.describe()

Если они являются ошибками, исправьте их в своем наборе данных и не удаляйте их.Если они являются точными, действительными выбросами, просто исключите их из визуализации, чтобы получить лучшее представление об остальных ваших данных.Это помогает?

...