Я пытаюсь выяснить, какие объекты рассматриваются в каждой подвыборке в моей задаче классификации, для этого я предполагаю, что существует случайное подмножество признаков длины max_features
, которое учитывается при построении каждого дерева.
Меня интересует это, потому что я использую два разных типа функций для своей задачи, поэтому я хочу убедиться, что в каждом дереве оба типа функций используются для каждого разбиения узла.Таким образом, один из способов, как минимум, заставить каждое дерево учитывать все особенности, установив для параметра max_features
значение None
.Таким образом, один вопрос здесь будет:
Означает ли это, что оба типа объектов рассматриваются для каждого разбиения узла?
Другой вопрос, полученный из предыдущего вопроса:
Поскольку Random Forest делает подвыборку для каждого дерева, является ли это подвыборкой среди наблюдений (строк) или среди столбцов (объектов)?Кроме того, может ли эта подвыборка выполняться группой строк вместо случайного ?
Кроме того, представляется неправильным допущение использовать все функции параметра max_features
ни в Decision Trees
, ни в random forest
, поскольку это противоречит всему смыслу и определению random forest
с точки зрения корреляции между деревьями (я не совсем уверен в этом утверждении).
Кто-нибудь знает, может ли это быть что-то, что можно изменить в исходном коде, или, по крайней мере, к нему можно подходить по-другому?
Любые предложения или комментарии очень приветствуются.
Не стесняйтесь исправлять любые предположения.
В исходном коде я читал об этом, но не смог найти, где это можетбыть определенным.
Исходный код проверен до настоящего времени:
splitter.py код из дерева решений
код forest.py из случайного леса