Зависит от типа вашей проблемы.Для двоичных или мультиклассовых задач вам не нужна одна переменная, зависящая от горячего кодирования, в scikit-learn
.Выполнение однократного кодирования изменит форму выходной переменной с одного измерения на несколько измерений.Это называется матрицей меток-индикаторов, где каждый столбец обозначает наличие или отсутствие этой метки.
Например, если выполнить однократное кодирование следующего кода:
['high', 'medium', 'low', 'high', 'low', 'high', 'medium']
вернет это:
high medium low
1 0 0
0 1 0
0 0 1
1 0 0
0 0 1
1 0 0
0 1 0
Не все классификаторы inscikit-learn
могут поддерживать этот формат (, даже если они поддерживают мультиклассовую классификацию ). Даже в тех, которые поддерживают это, это вызовет классификацию с несколькими метками (в которой может быть несколько меток).присутствовать сразу) - это то, чего вы не хотите в многоклассовой задаче.