В документации для DRF указано
Что происходит, когда вы пытаетесь прогнозировать на категориальном уровне, не замеченном во время тренировки? DRF преобразует новый категориальныйуровень до значения NA в тестовом наборе, а затем делится влево на значение NA во время оценки.Алгоритм разделяется слева на значения NA, потому что во время обучения значения NA группируются с выбросами в крайнем левом бине.
Вопросы:
- Таким образом, h2o преобразует невидимоеуровни для NA, а затем обрабатывает их так же, как NA в данных обучения.Но что, если в обучающих данных также нет NA?
- Предположим, что мой категорический предиктор имеет тип
enum
и его следует понимать как неординарный.Что означает «, сгруппированные с выбросами в самой левой корзине »?Если предиктор неординарный, то нет " крайнего левого " и нет " выбросов ". - Давайте отложим вопросы 1 и 2 в сторону и сосредоточимсяна части " Алгоритм разбивает налево на значения NA, потому что во время обучения значения NA группируются с выбросами в крайнем левом интервале ".Это противоречит этому SO-ответу , показывающему одно дерево DRF, полученное из MOJO.Хорошо видно, что НС идут влево и вправо.Это также противоречит ответу на другой вопрос в документации, где говорится, что « пропущенные значения как отдельная категория [...] могут идти влево или вправо », см.
Как алгоритм обрабатывает пропущенные значения во время обучения? Пропущенные значения интерпретируются как содержащие информацию (т. Е. Пропущенные по причине), а не пропущенные случайно.Во время построения дерева решения разделения для каждого узла находят путем минимизации функции потерь и обработки пропущенных значений как отдельной категории, которая может идти либо влево, либо вправо.
Последний пункт - скорее предложение, чемвопрос.Документация о пропущенных значениях для GBM гласит:
Что происходит, когда вы пытаетесь предсказать на категориальном уровне, не замеченном во время обучения? Превращаются невидимые категориальные уровнив АН, и, следовательно, следуют тому же поведению, что и АН.Если в данных обучения отсутствуют NA, то невидимые категориальные уровни в данных теста следуют направлению большинства (направление с большинством наблюдений).Если в данных обучения есть NA, то невидимые категориальные уровни в данных теста следуют в направлении, оптимальном для NA данных обучения.
В отличие от описания того, как DRF обрабатывает пропущенныезначения, это, кажется, полностью соответствует.Плюс: использование мажоритарного пути, а не всегда движение влево в точках разделения, представляется более естественным.