Как сохранить Scikit-learn OneHotEncoding из создания модели для использования с новыми данными? - PullRequest
0 голосов
/ 05 мая 2020

Я использую OneHotEncoding для создания макетов для задачи классификации. При использовании с данными обучения я получаю ~ 300 фиктивных столбцов, и это нормально. Однако, когда я ввожу новые данные (а это меньше строк), OneHotEncoding генерирует только ~ 250 манекенов, что неудивительно, учитывая меньший набор данных, но тогда я не могу использовать новые данные с моделью, потому что функции не выравнивать.

Есть ли способ сохранить схему OneHotEncoding для использования с новыми входящими данными?

1 Ответ

1 голос
/ 05 мая 2020

Я думаю, что вы используете fit_transform как для обучающего, так и для тестового набора данных, что не является правильным подходом, потому что схема кодирования должна быть согласованной в обоих наборах данных, чтобы модель могла понимать информацию из функций.

Правильный способ: сделать

  • fit_transform на данных обучения
  • transform на тестовых данных

Сделав это Таким образом, вы получите постоянное количество столбцов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...