Лучший способ определить и заменить выброс для столбца Зарплата в Python - PullRequest
0 голосов
/ 27 февраля 2019

Каков наилучший метод для определения и замены выбросов для столбцов ApplicantIncome, CoapplicantIncome, LoanAmount, Loan_Amount_Term в Python Python.

Я пробовал IQR с коробчатым графиком на море и пытался идентифицировать розетку и заполнять записью NAN послекоторые берут среднее значение ApplicantIncome и заполняются записями NAN.

Попробуйте взять группу из столбца ниже комбинации, например: пол, образование, самозанятый, Property_Area

И наличие столбца ниже в моем фрейме данных

Loan_ID              LP001357
Gender                   Male
Married                   NaN
Dependents                NaN
Education            Graduate
Self_Employed              No
ApplicantIncome          3816
CoapplicantIncome         754
LoanAmount                160
Loan_Amount_Term          360
Credit_History              1
Property_Area           Urban
Loan_Status                 Y

1 Ответ

0 голосов
/ 27 февраля 2019

Выбросы

Так же, как и пропущенные значения, ваши данные могут также содержать значения, которые сильно отличаются от большинства других ваших данных.Эти точки данных называются «выбросами».Чтобы найти их, вы можете проверить распределение ваших отдельных переменных с помощью блочного графика или вы можете сделать точечный график ваших данных, чтобы идентифицировать точки данных, которые не лежат в «ожидаемой» области графика.

Причины выбросов в ваших данных могут различаться - от системных ошибок до людей, вмешивающихся в данные путем ввода или обработки данных, но важно учитывать влияние, которое они могут оказать на ваш анализ: они изменятРезультаты статистических тестов, таких как стандартное отклонение, среднее значение или медиана, могут потенциально снизить нормальность и повлиять на результаты статистических моделей, таких как регрессия или ANOVA.

Чтобы иметь дело с выбросами, вы можете либо удалить, либо преобразоватьили вменяйте их: решение снова будет зависеть от контекста данных.Вот почему так же важно понять ваши данные и определить причину выбросов:

  • Если значение выброса связано с ошибками ввода или обработки данных, вы можете удалить это значение.
  • Вы можете преобразовать выбросы, присвоив веса своим наблюдениям, или использовать натуральный логарифм, чтобы уменьшить разброс, который вызывают значения выбросов в вашем наборе данных.
  • Также как и пропущенные значения, вы также можете использовать вменениеметоды для замены экстремальных значений ваших данных медианными, средними или модовыми значениями.

Вы можете использовать функции, которые были описаны в предыдущем разделе, для работы с выбросами в ваших данных.

Следующие ссылки будут полезны для вас:

Очистка данных Python

Способы обнаружения и устранения выбросов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...