Меня интересует разница между следующими двумя подходами при прогнозировании со случайным лесом:
Подход 1:
- Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
- Создание подвыборок n_tree из вашего обучающего набора с использованием начальной загрузки с заменой (с n_tree - числом построенных вами деревьев)
- Создание дерева на каждом из этих подвыборок n_tree (со случайными подмножествами)функций (соответствующей подвыборки) в каждом узле)
- Запустите тестовый набор для каждого дерева и получите прогнозы
- Среднее по всем деревьям
Подход 2:
- Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
- Постройте дерево на обучающей выборке (со случайными подмножествами функций (соответствующей подвыборки) на каждомузел)
- Запустите тестовый набор вниз по дереву и получите прогнозы
- Повторите шаги 1.-3.n_tree times
- Среднее по всем деревьям
Подход 2 (насколько я понимаю) использует так называемые "честные" деревья, поскольку каждое дерево построено на одном наборе и делает свои прогнозына другом наборе (что должно приводить к асимптотически нормальным предсказаниям (Athey & Wager, 2017). Однако чем это отличается от подхода 1, где я также строю свои деревья на одном наборе и предсказываю на другом? Я понимаю, что в подходе 1Я подхожу к обучающему и тестовому набору только один раз, в то время как в подходе 2 я делаю это для каждого дерева.Так что в подходе 1 я должен убедиться, что совместное распределение между X (признаками) и Y (метками) в обоих наборахто же самое, что в среднем должно быть в подходе 2. Но если это относится и к подходу 1, одинаковы ли эти два подхода? Итак, мои прогнозы будут асимптотически нормальными в обоих подходах?
Любое понимание того, что высоко ценится, спасибо заранее!