Вы можете определить номер измерения с помощью параметра max_features
. Что-то вроде:
rf = RandomForestClassifier(max_features=.1)
К сожалению, RandomForestClassifier
пока не поддерживает субсэмплинг (т. Е. Процент в сумке). Однако эта функция была добавлена в текущей ветке разработки sklearn, поэтому будет доступна в будущем.
На данный момент хорошим обходным путем является использование BaggingClassifier
: у него есть max_samples
параметр для подвыборки, и его можно превратить в RandomForestClassifier
, используя DecisionTreeClassifier
в качестве базы.
base = DecisionTreeClassifier(max_features=.1)
rf = BaggingClassifier(base_estimator=base, max_samples=.25)
Обратите внимание, что BaggingClassifier
также имеет параметр max_features
, но он работает иначе, чем случайный лес.