Допустим, у меня есть следующая случайная лесная регрессия в библиотеке ranger
, указанная следующим образом:
random_forest <- ranger(formula = outcome ~ x1 + x2 + x3 + x4 + x5
data = subset_imputed,
num.trees = 100,
splitrule = "maxstat",
seed = 42,
importance = "permutation",
num.threads = detectCores() - 1
)
Два вопроса:
Какое точное условие остановки по умолчанию используется в приведенной выше спецификации? Я не могу найти ничего в документации, указывающей, какие критерии остановки по умолчанию используются для правила разделения maxstat.
Как точно определяется разделение с использованием правила разделения maxstat? Я читал, что это подходящее приближение для дерева условного вывода, но в статье, на которой это основано (https://arxiv.org/pdf/1605.03391.pdf),, не очень ясно, как определяется расщепление для регрессий, не связанных с выживанием.