R :: tidymodels: Как библиотека встраивания обрабатывает новые / невидимые значения в тестовых данных? - PullRequest
0 голосов
/ 17 марта 2020

В настоящее время я планирую использовать кодирование «вес доказательств» для задачи двоичной классификации для кодирования переменных со многими уровнями.

Я обнаружил, что в моих тестовых данных (и последующем прогнозировании выполняются новые данные), вероятно, будут невидимые уровни предикторов. Как эти случаи обрабатываются в библиотеке для встраивания, в частности в step_woe() -рецепте?

Я видел, что dictionary() может быть подогнано к тренировочным данным и передано в тестовый прогноз, но это Мне не ясно, учитываются ли новые значения по умолчанию или мне нужно расширять словарь вручную. Я предполагаю, что использование глобального среднего значения / медианы было бы приемлемым вариантом для новых / невидимых значений.

...