Когда горячо кодировать? Пример уровня истощения сотрудников - PullRequest
0 голосов
/ 26 января 2019

У меня следующий вопрос:

У меня есть следующие категориальные переменные в наборе данных для прогнозирования истощения сотрудника. categorical variables

В настоящее время я выполнил одно горячее кодирование: Уровень задания, Роль задания, Семейное положение, Свыше 18, Сверхурочное время и сохраняю ту же кодировку меток для порядковых столбцов ( PerformanceRating, Отношение удовлетворенность и * 1013 удовлетворение от работы *).

Затем, после разбиения на наборы для обучения и испытаний, я буду использовать классификатор рандома Форреста для прогнозирования истощения (да / нет).

Правильно ли я занимаюсь кодированием (горячим для категориального и без кодировки для порядковых столбцов)?

Большое вам спасибо за помощь в этом сомнении!

1 Ответ

0 голосов
/ 26 января 2019

Прежде всего, вы должны сомневаться во всем и пройти тест производительности.

В общем, модели дерева решений либо не нуждаются в однократном кодировании, либо даже работают хуже после него. Конечно, есть исключения, но в современных моделях мирового дерева ML, если их часто уважают за способность работать с категориальными данными высокой размерности без значительной предварительной обработки.

...