R - MLR - randomForestSRC - размер модели огромный, время предсказания очень медленное - как уменьшить оба? - PullRequest
0 голосов
/ 03 мая 2018

Изучив классификацию randomForestSRC (https://www.rdocumentation.org/packages/randomForestSRC/versions/2.6.0) с использованием MLR, размер модели составляет много ГБ, а время прогнозирования для каждого экземпляра очень медленное.

Что мы можем вырезать из модели, чтобы уменьшить размер и предположительно уменьшить время предсказания?

Обратите внимание, что некоторые тесты показывают, что предсказание 100 предметов в основном соответствует скорости предсказания 1.

**Prediction: 1 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 70.25**

**Prediction: 100 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 69.82**

https://kogalur.github.io/randomForestSRC/theory.html

Ответы [ 2 ]

0 голосов
/ 04 мая 2018

Если вы не привязаны к этой конкретной реализации для леса классификации, вы можете попробовать дать рейнджеру ("classif.ranger").

Вы можете найти сравнение реализаций здесь: https://www.jstatsoft.org/article/view/v077i01

0 голосов
/ 03 мая 2018

Существует несколько параметров, которые можно настроить, чтобы уменьшить размер модели. В частности:

  • уменьшить ntree для меньшего количества деревьев
  • увеличение nodesize для большего количества точек данных на лист
  • уменьшение nodedepth, чтобы получить более мелкие деревья
...