Я вычислил случайный лес, чтобы предсказать целевое значение в большой структуре данных. Матрица содержит несколько тысяч строк, около 20 входных переменных и одну переменную output / target / response.
Например, кадр данных df выглядит следующим образом:
| V1 | V2 | V3 | V4 | ... | Rsp |
---------------------------------
| 1 | 8 | 2 | 3 | ... | 1.5 |
| 2 | 4 | 3 | 4 | ... | 1.3 |
| 5 | 7 | 6 | 3 | ... | 1.4 |
| 2 | 8 | 8 | 4 | ... | 1.9 |
| 9 | 3 | 1 | 6 | ... | 2.1 |
. . . . . .
Я вычислил лес:
df.r <- randomForest(Rsp ~ . , data = df , subset = train , mtry = 50, ntree=200)
p <- predict(df.r, df[-train,])
Я хочу минимизировать отклик, чтобы получить наилучшие комбинации входных переменных. Но поскольку на входе и на выходе шумно, я не могу напрямую взять переменные с минимальным значением ответа.
Итак, мой вопрос: возможно ли пойти вверх по дереву? Можно ли получить комбинации переменных, которые дают мне низкое значение ответа?