Я пытаюсь понять плюсы и минусы и когда использовать различные опции кодирования, которые мне доступны в h2o с параметром 'categoryorical_encoding'.
Было бы полезно, если бы люди могли указать общие правила о том, как это использовать.
Обычно я использую значение 'Enum', потому что мне нравится, как все категориальные значения группируются вместе, когда я смотрю на важность функции. С другой стороны, значением по умолчанию для xgboost является «label-encoder», я полагаю, что разбивает вещи на категориальные уровни / значения.
К сожалению, я действительно не знаю, с чего начать или задать вопросы по этим другим доступным значениям:
- один горячий внутренний
- один горячий явный
- sort_by_response
- enum_limited
- перечисление
-label-кодер
Опять же, я в основном придерживаюсь enum, иногда label-encoder, но, честно говоря, я не знаю практического значения этих различных опций. Хотелось бы получить общее представление о том, когда кто-то из знающих людей может быть лучше других!