Когда вы сталкиваетесь с отсутствующими значениями во входных функциях, первым делом не является то, как вменять отсутствующие.Самый важный вопрос, почему вы должны.Если у вас нет ясного и окончательного мнения о том, что такое «истинная» реальность, лежащая в основе данных, вы, возможно, захотите сократить стремление к вменению.Это не о технике или пакете в первую очередь.
Исторически мы прибегали к древовидным методам, таким как деревья решений, главным образом потому, что некоторые из нас, по крайней мере, чувствовали, что приписывание отсутствию для оценки регрессии, такой как линейная регрессия, логистическая регрессия или даже NN, является достаточно искажающим, поэтому у нас должны быть методы, которые нетребовать вменения пропавших «среди колонн».Так называемая недостающая информативность.Что должно быть знакомо понятию для тех, кто знаком, скажем, с байесовским.
Если вы действительно моделируете большие данные, помимо разговоров об этом, есть вероятность, что вы столкнетесь с большим количеством столбцов.В обычной практике извлечения признаков, такой как анализ текста, вы можете очень хорошо сказать, что пропущенное означает число = 0.Это хорошо, потому что вы знаете причину.Реальность, особенно когда сталкиваешься со структурированными источниками данных, заключается в том, что ты не знаешь или просто не успеваешь узнать причину.Но ваш двигатель вынуждает подключить значение, будь то NAN или другие заполнители, которые может выдержать двигатель, я вполне могу утверждать, что ваша модель так же хороша, как вы вменяете, что не имеет смысла.
Один интригующий вопрос: если мы оставляем пропущение, чтобы судить о его близком контексте в процессе разделения, суррогате первой или второй степени, действительно ли лесоводство делает контекстное суждение спорным, поскольку сам по себе контекст является случайным выбором?Это, однако, проблема «лучше».По крайней мере, это не так больно.Это, безусловно, должно сделать ненужным сохранение пропусков.
На практике, если у вас большое количество входных функций, у вас, вероятно, не может быть «хорошей» стратегии для вменения в конце концов.С точки зрения чистого вменения, лучшая практика не является однозначной.То, что в конкурсе RF, в значительной степени означает использование RF для вменения перед моделированием с ним.
Поэтому, если кто-то не скажет мне (или нам) «мы не можем этого сделать», я думаю, что мы должны разрешить перенос пропущенных «ячеек», полностью обходя тему того, как «лучше» вменять.