Как применить модели обучения scikit к невидимым данным другой формы? Получить чайники вызывает проблемы - PullRequest
0 голосов
/ 20 ноября 2019

Скажем, моя тренировка модели для определения оттока, и набор данных имеет следующие особенности (очень упрощенные). У меня есть марки и женщины, которые подписались онлайн или по почте.

ID  source  Gender  Churn
1   Online  M       1
2   Post    M       1
3   Online  M       1
4   Online  F       0
5   Post    F       0

И я применяю панд get_dummies:

ID  source_online   source_post Gender_M    Gender_F
1       1               0          1          0
2       0               1          1          0
3       1               0          1          0
4       1               0          0          1
5       0               1          0          1

Теперь, скажем, я использую StandardScaler, а затем fit модель на этих данных и обучаю ее.

Через несколько дней я получаю новые данные из той же базы данных и схемы , и я должен предсказать отток. Точно такие же переменные, за исключением того, что на этот раз только мужчины, которые только зарегистрировались онлайн.

ID  source  Gender
1   Online  M
2   Online  M
3   Online  M

Я применяю get_dummies:

   ID  source_Online  Gender_M
0   1              1         1
1   2              1         1
2   3              1         1

Прежде всего, StandardScaler с изученными настройками из обучающего набора не работает с этими невидимыми данными, потому чтоему не хватает dummy variables. И, конечно, он не работает с обученной моделью по той же причине.

Есть ли способ обойти это?

В настоящее время у меня есть сотни записей с этой проблемой, потому что они отсутствуютодин внутри переменной, которая присутствовала в обучающем наборе. (В этом упрощенном примере мы скучаем по женщинам)

...