У меня есть набор данных с более чем 7 сотнями столбцов.
1) Могу ли я нормально знать, как очистить выбросы в таком наборе данных столбцов большого объема? 2) Допустим, для определения выброса используется следующий код:
Q1 = df_train2.quantile(0.25)
Q3 = df_train2.quantile(0.75)
IQR = Q3 - Q1
print(IQR)
print((df_train2 < (Q1 - 1.5 * IQR)) |(df_train2 > (Q3 + 1.5 * IQR)))
в вопросе (2), как я могу показать только столбцы с выбросами? Таким образом, я мог бы идентифицировать и очистить их индивидуально.
3) Обычно, как мы узнаем, имеет ли значение выбросы или нет? Поскольку набор данных предоставляется Kaggle без указания имени столбцов (названных как fea1, fea2, fea3 и т. Д.)
Надеюсь, вы, ребята, поможете мне очистить данные такого типа.