Question

Меня интересует разница между следующими двумя подходами при прогнозировании со случайным лесом:

Подход 1:

Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
Создание подвыборок n_tree из вашего обучающего набора с использованием начальной загрузки с заменой (с n_tree - числом построенных вами деревьев)
Создание дерева на каждом из этих подвыборок n_tree (со случайными подмножествами)функций (соответствующей подвыборки) в каждом узле)
Запустите тестовый набор для каждого дерева и получите прогнозы
Среднее по всем деревьям

Подход 2:

Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
Постройте дерево на обучающей выборке (со случайными подмножествами функций (соответствующей подвыборки) на каждомузел)
Запустите тестовый набор вниз по дереву и получите прогнозы
Повторите шаги 1.-3.n_tree times
Среднее по всем деревьям

Подход 2 (насколько я понимаю) использует так называемые "честные" деревья, поскольку каждое дерево построено на одном наборе и делает свои прогнозына другом наборе (что должно приводить к асимптотически нормальным предсказаниям (Athey & Wager, 2017). Однако чем это отличается от подхода 1, где я также строю свои деревья на одном наборе и предсказываю на другом? Я понимаю, что в подходе 1Я подхожу к обучающему и тестовому набору только один раз, в то время как в подходе 2 я делаю это для каждого дерева.Так что в подходе 1 я должен убедиться, что совместное распределение между X (признаками) и Y (метками) в обоих наборахто же самое, что в среднем должно быть в подходе 2. Но если это относится и к подходу 1, одинаковы ли эти два подхода? Итак, мои прогнозы будут асимптотически нормальными в обоих подходах?

Любое понимание того, что высоко ценится, спасибо заранее!

"Честный" Случайный Лес

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

"Честный" Случайный Лес

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы