Приведенный ниже текст действителен, если вы планируете использовать LighGBM, XGBoost или CatBoost.
Самое важное - проверить, есть ли 100% -ная уверенность, что каждая метка «потерянные данные» связана схотя бы один нуль в строке, и каждый нуль в любом столбце связан с категорией «потеря данных».Если это так, вы можете исключить все эти строки из наборов данных обучения и тестирования, пометить их как «потерянные данные» и обучить остальные, используя только две метки.Скучно.
Наиболее интересная ситуация, если вышеприведенное не совсем верно.В этом случае вы должны тренироваться с использованием трех меток, и для этого требуются некоторые технические характеристики и специальные вменения.Primo, дополнительная функция, представляющая собой сумму нулей в строке, будет очень полезна.Secundo, заполнение нулями очень важно, но не как среднее значение / медиана / и т.д., а как значение, отличное от других, например, -9999999.И, что важно, - не позволяйте методам gbm рассматривать их как нули.Зачем?Методы Gbm находят значение среза без учета нулей, а затем проверяют, лучше ли подключать нули к левому или правому листу.Эта стратегия хороша во всех случаях, но эта с «потерянными данными» в качестве метки и пустыми значениями, указывающими на эту метку как очень вероятную.