pandas: fillna со значением, которое может указывать, что раньше оно было нулевым - PullRequest
0 голосов
/ 10 апреля 2019

Я использую набор данных для построения модели в машинном обучении. В примерах есть 3 категории меток, таких как «ненормальные», «нормальные», «потерянные данные».

Меня смущает категория "потерянные данные". В примерах эта категория означает, что некоторые функции в этой строке являются нулевыми.

Мой вопрос таков: значение NULL в наборе данных должно приводить к прогнозу «потеря данных». мне все еще нужно заполнять данные в процессе обработки?

если я заполню свой набор данных значением (среднее значение / медиана ... что угодно), образец, который должен быть предсказан как "потеря данных", будет перепутан?

Или есть значение, которое я должен использовать для fillna, который может указывать на

1 Ответ

0 голосов
/ 11 апреля 2019

Приведенный ниже текст действителен, если вы планируете использовать LighGBM, XGBoost или CatBoost.

Самое важное - проверить, есть ли 100% -ная уверенность, что каждая метка «потерянные данные» связана схотя бы один нуль в строке, и каждый нуль в любом столбце связан с категорией «потеря данных».Если это так, вы можете исключить все эти строки из наборов данных обучения и тестирования, пометить их как «потерянные данные» и обучить остальные, используя только две метки.Скучно.

Наиболее интересная ситуация, если вышеприведенное не совсем верно.В этом случае вы должны тренироваться с использованием трех меток, и для этого требуются некоторые технические характеристики и специальные вменения.Primo, дополнительная функция, представляющая собой сумму нулей в строке, будет очень полезна.Secundo, заполнение нулями очень важно, но не как среднее значение / медиана / и т.д., а как значение, отличное от других, например, -9999999.И, что важно, - не позволяйте методам gbm рассматривать их как нули.Зачем?Методы Gbm находят значение среза без учета нулей, а затем проверяют, лучше ли подключать нули к левому или правому листу.Эта стратегия хороша во всех случаях, но эта с «потерянными данными» в качестве метки и пустыми значениями, указывающими на эту метку как очень вероятную.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...