Скажем, моя тренировка модели для определения оттока, и набор данных имеет следующие особенности (очень упрощенные). У меня есть марки и женщины, которые подписались онлайн или по почте.
ID source Gender Churn
1 Online M 1
2 Post M 1
3 Online M 1
4 Online F 0
5 Post F 0
И я применяю панд get_dummies
:
ID source_online source_post Gender_M Gender_F
1 1 0 1 0
2 0 1 1 0
3 1 0 1 0
4 1 0 0 1
5 0 1 0 1
Теперь, скажем, я использую StandardScaler
, а затем fit
модель на этих данных и обучаю ее.
Через несколько дней я получаю новые данные из той же базы данных и схемы , и я должен предсказать отток. Точно такие же переменные, за исключением того, что на этот раз только мужчины, которые только зарегистрировались онлайн.
ID source Gender
1 Online M
2 Online M
3 Online M
Я применяю get_dummies
:
ID source_Online Gender_M
0 1 1 1
1 2 1 1
2 3 1 1
Прежде всего, StandardScaler
с изученными настройками из обучающего набора не работает с этими невидимыми данными, потому чтоему не хватает dummy variables
. И, конечно, он не работает с обученной моделью по той же причине.
Есть ли способ обойти это?
В настоящее время у меня есть сотни записей с этой проблемой, потому что они отсутствуютодин внутри переменной, которая присутствовала в обучающем наборе. (В этом упрощенном примере мы скучаем по женщинам)