У меня есть набор данных, который содержит различные категориальные переменные и не содержит числовых переменных.Я преобразовал переменные в упорядоченные факторы следующим образом:
df$colA= factor(df$colA,levels=unique(df$colA), ordered=TRUE)
Теперь я делаю модель случайного леса, а затем создаю дерево, используя следующий код:
getTree(model.rf, 1, labelVar=TRUE) #model.rf is the model created using df and various columns
Я получаю дерево примерно так:ниже:
left daughter right daughter split var split point status prediction
1 2 3 colA 1.5 1 <NA>
2 4 5 colB 2.5 1 <NA>
и так далее ...
Ask:
Обе мои сплит-переменные являются категориальными переменными с упорядоченным множителем.Теперь, как я могу интерпретировать точку разделения как 1,5 или 2,5.Я не могу сказать, что разделение между двумя группами.
Чтобы объяснить это далее: скажем, ColA
- это пол с уровнями, как M
или F
, а ColB
- это Weight
с уровнямикак High
Medium
Low
.
Теперь, чтобы объяснить это заинтересованным лицам, я не могу сказать, когда пол находится между мужчиной и женщиной, а вес - от среднего до высокого
Может кто-топомогите мне, как объяснить ВЧ дерево при работе с категориальной переменной?