"Честный" Случайный Лес - PullRequest
0 голосов
/ 14 ноября 2018

Меня интересует разница между следующими двумя подходами при прогнозировании со случайным лесом:

Подход 1:

  1. Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
  2. Создание подвыборок n_tree из вашего обучающего набора с использованием начальной загрузки с заменой (с n_tree - числом построенных вами деревьев)
  3. Создание дерева на каждом из этих подвыборок n_tree (со случайными подмножествами)функций (соответствующей подвыборки) в каждом узле)
  4. Запустите тестовый набор для каждого дерева и получите прогнозы
  5. Среднее по всем деревьям

Подход 2:

  1. Разделите ваш набор данных на обучающую выборку и тестовую выборку (случайным образом)
  2. Постройте дерево на обучающей выборке (со случайными подмножествами функций (соответствующей подвыборки) на каждомузел)
  3. Запустите тестовый набор вниз по дереву и получите прогнозы
  4. Повторите шаги 1.-3.n_tree times
  5. Среднее по всем деревьям

Подход 2 (насколько я понимаю) использует так называемые "честные" деревья, поскольку каждое дерево построено на одном наборе и делает свои прогнозына другом наборе (что должно приводить к асимптотически нормальным предсказаниям (Athey & Wager, 2017). Однако чем это отличается от подхода 1, где я также строю свои деревья на одном наборе и предсказываю на другом? Я понимаю, что в подходе 1Я подхожу к обучающему и тестовому набору только один раз, в то время как в подходе 2 я делаю это для каждого дерева.Так что в подходе 1 я должен убедиться, что совместное распределение между X (признаками) и Y (метками) в обоих наборахто же самое, что в среднем должно быть в подходе 2. Но если это относится и к подходу 1, одинаковы ли эти два подхода? Итак, мои прогнозы будут асимптотически нормальными в обоих подходах?

Любое понимание того, что высоко ценится, спасибо заранее!

...