У меня следующий вопрос:
У меня есть следующие категориальные переменные в наборе данных для прогнозирования истощения сотрудника.
В настоящее время я выполнил одно горячее кодирование: Уровень задания, Роль задания, Семейное положение, Свыше 18, Сверхурочное время и сохраняю ту же кодировку меток для порядковых столбцов ( PerformanceRating, Отношение удовлетворенность и * 1013 удовлетворение от работы *).
Затем, после разбиения на наборы для обучения и испытаний, я буду использовать классификатор рандома Форреста для прогнозирования истощения (да / нет).
Правильно ли я занимаюсь кодированием (горячим для категориального и без кодировки для порядковых столбцов)?
Большое вам спасибо за помощь в этом сомнении!