Идея «subsample», «colsample_by_tree» и «colsample_bylevel» происходит из случайных лесов.В нем вы строите множество деревьев, а затем группируете их, когда делаете прогноз.
«Случайная» часть происходит путем случайной выборки обучающих выборок для каждого дерева (начальной загрузки) и построения каждого дерева (фактически узла каждого дерева) только с учетом случайного подмножества атрибутов.
Другими словами, для каждого дерева в случайном лесу вы:
- Выберите случайную выборку из набора данных для обучения этого дерева;
- Для каждого узла этого дерева используйтеслучайное подмножество функций.Это позволяет избежать переоснащения и декоррелировать деревья.
Подобно случайным лесам, XGB представляет собой ансамбль слабых моделей, которые при объединении дают надежные и точные результаты.Слабыми моделями могут быть деревья решений, которые можно рандомизировать так же, как случайные леса.В этом случае:
- «подвыборка» - это часть обучающих выборок (выбранных случайным образом), которые будут использоваться для обучения каждого дерева.
- «colsample_by_tree» - это доля функций(выбранный случайным образом), который будет использоваться для обучения каждого дерева.
- "colsample_bylevel" - это часть функций (выбранных случайным образом), которые будут использоваться в каждом узле для обучения каждого дерева.