Как интерпретировать дерево решений H2O? - PullRequest
0 голосов
/ 09 июля 2019

Я построил дерево решений h2o: Tree
Я следил за многими постами на SO и поправляю меня, если я не прав, но значения на листьях являются корреляциями,уровни - это количество категориальных значений, а дерево 0 означает, что первое дерево, которое было создано.
Теперь моя проблема в том, что
1. Я не могу понять знаки "больше или равно" и "меньше"чем "знаки в категориальных значениях.Например, если мы продолжим после Z<10.032598, у нас будет знак «больше или равно» справа, что подразумевает что?Кроме того, у нас есть знак «меньше чем» слева с NA, которые являются категориальными переменными, но что вообще означает «меньше чем» категориальная переменная?
2. Если мы начнем сверху (c) и идем направо, у нас есть значение 1, которое, как я понимаю, подразумевает, что c имеет 1 корреляцию.Но если мы опустимся на 1 уровень снова до Z<10.032598, знак «больше или равно» справа снова означает 1 корреляцию.Что это значит?

1 Ответ

1 голос
/ 09 июля 2019

Если вы строите простое дерево решений, то значения в конечных узлах являются выходной вероятностью, а не корреляцией, а уровни не являются подсчетом категориальных значений, поскольку вы можете иметь несколько элементов, повторяющихся в дереве на разных уровнях.Уровни определяются глубиной, которую вы предоставляете при обучении модели.

  1. Знак больше или меньше, чем указывает направление, в котором вы должны идти.Например, на уровне 1, если z>10.0325, то вы идете направо, но если оно меньше, чем вы идете налево в дереве.NA в основном показывает, что вы идете влево, если значение меньше порога или равно нулю.Ваша модель рассматривает категориальные переменные в числовом формате, и H2O предоставляет вам возможность изменить это значение, используя categorical_encoding.Поскольку данные представлены в числовом формате, они интерпретируются как числовые.

  2. Причина, по которой снова принимается решение 1, заключается в том, что ваша модель сейчас проверяет другую функцию для проверки результатов.Если первый уровень терпит неудачу, и модель не уверена в выходных данных, она проверит второй уровень и сделает то же самое и пойдет дальше по дереву, пока не достигнет предсказания.

...