В настоящее время я планирую использовать кодирование «вес доказательств» для задачи двоичной классификации для кодирования переменных со многими уровнями.
Я обнаружил, что в моих тестовых данных (и последующем прогнозировании выполняются новые данные), вероятно, будут невидимые уровни предикторов. Как эти случаи обрабатываются в библиотеке для встраивания, в частности в step_woe()
-рецепте?
Я видел, что dictionary()
может быть подогнано к тренировочным данным и передано в тестовый прогноз, но это Мне не ясно, учитываются ли новые значения по умолчанию или мне нужно расширять словарь вручную. Я предполагаю, что использование глобального среднего значения / медианы было бы приемлемым вариантом для новых / невидимых значений.