понимание, когда использовать и почему - PullRequest
0 голосов
/ 09 ноября 2018

Я пытаюсь понять плюсы и минусы и когда использовать различные опции кодирования, которые мне доступны в h2o с параметром 'categoryorical_encoding'.

Было бы полезно, если бы люди могли указать общие правила о том, как это использовать.

Обычно я использую значение 'Enum', потому что мне нравится, как все категориальные значения группируются вместе, когда я смотрю на важность функции. С другой стороны, значением по умолчанию для xgboost является «label-encoder», я полагаю, что разбивает вещи на категориальные уровни / значения.

К сожалению, я действительно не знаю, с чего начать или задать вопросы по этим другим доступным значениям:

  • один горячий внутренний
  • один горячий явный
  • sort_by_response
  • enum_limited
  • перечисление -label-кодер

Опять же, я в основном придерживаюсь enum, иногда label-encoder, но, честно говоря, я не знаю практического значения этих различных опций. Хотелось бы получить общее представление о том, когда кто-то из знающих людей может быть лучше других!

1 Ответ

0 голосов
/ 10 ноября 2018

По запросу (спасибо!) Этот вопрос был повторно размещен в перекрестной проверке. Так что ответ о том, какие плюсы и минусы можно найти по адресу: https://stats.stackexchange.com/questions/376203/categorical-encoding-in-h2o-what-is-the-difference-between-the-options

...