Я использую RandomForestClassifier()
с 10 fold cross validation
следующим образом.
clf=RandomForestClassifier(random_state = 42, class_weight="balanced")
k_fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
accuracy = cross_val_score(clf, X, y, cv=k_fold, scoring = 'accuracy')
print(accuracy.mean())
Я хочу определить важные функции в моем пространстве функций.Кажется, было бы просто получить значение функции для отдельной классификации следующим образом.
print("Features sorted by their score:")
feature_importances = pd.DataFrame(clf.feature_importances_,
index = X_train.columns,
columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances)
Однако я не мог найти, как выполнить feature importance
для cross validation
в sklearn.
Итак, я хочу определить наиболее эффективные функции (например, с помощью average importance score
) в 10-кратной перекрестной проверке.
Я с удовольствием предоставлю более подробную информацию, еслинеобходимо.