Scikit Learn RFECV ValueError: непрерывный не поддерживается - PullRequest
1 голос
/ 15 февраля 2020

Я пытаюсь использовать scikit learn RFECV для выбора функций в данном наборе данных, используя код ниже:

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import RFECV

# Data Processing
df = pd.read_csv('Combined_Data_final_2019H2_10min.csv')
X, y = (df.drop(['TimeStamp','Power_kW'], axis=1)), df['Power_kW']
SEED = 10
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=SEED)

# The "accuracy" scoring is proportional to the number of correct classifications
clf_rf_4 = RandomForestRegressor()
rfecv = RFECV(estimator=clf_rf_4, step=1, cv=4,scoring='accuracy')   #4-fold cross-validation (cv=4)

rfecv = rfecv.fit(X_train, y_train)

print('Optimal number of features :', rfecv.n_features_)
print('Best features :', X.columns[rfecv.support_])

# Plot number of features VS. cross-validation scores
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score of number of selected features")
plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_)
plt.show()

Я пробовал несколько различных решений, но я постоянно получаю следующий код ошибки:

ValueError: continuous is not supported

Любые идеи?

Любая помощь будет очень ценится!

1 Ответ

0 голосов
/ 15 февраля 2020

Я полагаю, что ваша ошибка связана с этими двумя строками:

clf_rf_4 = RandomForestRegressor()
rfecv = RFECV(estimator=clf_rf_4, step=1, cv=4,scoring='accuracy')

accuracy не определено для непрерывных выходов. Попробуйте изменить его на что-то вроде:

rfecv = RFECV(estimator=clf_rf_4, step=1, cv=4,scoring='r2')

Полный список показателей оценки регрессии см. здесь , обратите внимание на строку Регрессия .

...