Возможно, я не совсем в нужном месте, но я попробую.
Я использую RF для приблизительных результатов от инструмента моделирования, который я использую.Это необходимо, потому что моделирование довольно вычислительно интенсивно.Я пытаюсь разработать процедуру, позволяющую оптимизировать расположение точек в моем предикторном пространстве (данные тренировки), чтобы использовать как можно меньше точек для моих данных тренировки и, таким образом, выполнять как можно меньше симуляций.Чтобы сделать это, я полагаюсь на оценку ошибки OOB, которая идет с ranger (реализация RF на C ++).
Моя проблема в том, что я понятия не имею, насколько большим должен быть мой набор данных для оценки ошибки OOB.быть даже отдаленно точным.Я предполагаю, что кто-то где-то, должно быть, пытался оценить значимость / точность оценки ошибки OOB, но я не смог ее найти.
Кто-нибудь знает какую-то литературу, статью в блоге, предварительно кодированный метод, который может помочьмне достичь этой цели?