Question

У меня есть набор данных с более чем 7 сотнями столбцов.

1) Могу ли я нормально знать, как очистить выбросы в таком наборе данных столбцов большого объема? 2) Допустим, для определения выброса используется следующий код:

Q1 = df_train2.quantile(0.25)
Q3 = df_train2.quantile(0.75)
IQR = Q3 - Q1
print(IQR)
print((df_train2 < (Q1 - 1.5 * IQR)) |(df_train2 > (Q3 + 1.5 * IQR)))

в вопросе (2), как я могу показать только столбцы с выбросами? Таким образом, я мог бы идентифицировать и очистить их индивидуально.

3) Обычно, как мы узнаем, имеет ли значение выбросы или нет? Поскольку набор данных предоставляется Kaggle без указания имени столбцов (названных как fea1, fea2, fea3 и т. Д.)

Надеюсь, вы, ребята, поможете мне очистить данные такого типа.

Как обнаружить столбцы (большой объем столбцов, 7xx), которые имеют выброс в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как обнаружить столбцы (большой объем столбцов, 7xx), которые имеют выброс в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы