развернуть модель машинного обучения с одним горячим кодированием - PullRequest
0 голосов
/ 07 марта 2019

Я обучил классификатор xgboost с категориальными функциями, которые я ранее один горячо закодировал. Например, у меня есть категорическая функция «Год», которая принимает значения между 2014 и 2018. Когда OHEd, я получаю 5 двоичных функций: Год_2014, Год_2015, Год_2016, Год_2017, Год_2018. Что произойдет, если я сделаю прогноз для выборки, у которой год = 2019, поскольку функция год_2019 не существует?

В целом, каков надежный способ преобразования данных для прогнозирования новых выборок?

1 Ответ

0 голосов
/ 07 марта 2019

Двоичные функции оцениваются так:

if(year != ${year value}){
  // Enter "left" branch
} else {
  // Enter "right" branch
}

Невидимый уровень категории отправляется в "левую" ветвь.

...