Условия остановки и разделения для правила разделения "maxstat" в пакете Ranger - PullRequest
0 голосов
/ 27 июня 2019

Допустим, у меня есть следующая случайная лесная регрессия в библиотеке ranger, указанная следующим образом:

random_forest <- ranger(formula    = outcome ~ x1 + x2 + x3 + x4 + x5
                        data            = subset_imputed,
                        num.trees       = 100,
                        splitrule       = "maxstat",
                        seed            = 42,
                        importance      = "permutation",
                        num.threads     = detectCores() - 1
                        )

Два вопроса:

  1. Какое точное условие остановки по умолчанию используется в приведенной выше спецификации? Я не могу найти ничего в документации, указывающей, какие критерии остановки по умолчанию используются для правила разделения maxstat.

  2. Как точно определяется разделение с использованием правила разделения maxstat? Я читал, что это подходящее приближение для дерева условного вывода, но в статье, на которой это основано (https://arxiv.org/pdf/1605.03391.pdf),, не очень ясно, как определяется расщепление для регрессий, не связанных с выживанием.

...