Как использовать Pandas get_dummies для прогнозируемых данных? - PullRequest
0 голосов
/ 31 мая 2018

После использования Pandas get_dummies в 3 категориальных столбцах для получения одного горячего кодированного кадра данных я обучил (с некоторым успехом) модель Перцептрона.

Теперь я хотел бы предсказать результат изновое наблюдение, что он не имеет горячего кодирования.

Есть ли способ записать отображение столбца get_dummies, чтобы использовать его повторно?

1 Ответ

0 голосов
/ 31 мая 2018

Насколько мне известно, в данный момент не существует автоматической процедуры для этого.В будущем выпуск sklearn CategoricalEncoder будет очень удобен для этой работы.Вы уже можете получить его, если клонируете sklearn мастер-ветку github и создаете себя.На данный момент мне на ум приходят 2 варианта:

  • использовать LabelEncoder+OneHotEncoder комбинацию, см. этот ответ, например ;
  • просто получить (и сохранить,при необходимости) список столбцов после тренировочного вывода OHE.Затем запустите pd.get_dummies на тестовом наборе / примере.Просмотрите циклы выходных тестовых OHE, отбросьте те, которые не отображаются в обучающем OHE, и добавьте те, которые отсутствуют в тестовом OHE, заполненные нулями.
...