У меня есть следующий код, который отображает вложенные и не вложенные перекрестные проверки алгоритма KNN.
# Number of random trials
NUM_TRIALS = 30
# Load the dataset
X_iris = X.values
y_iris = y
# Set up possible values of parameters to optimize over
p_grid = {"n_neighbors": [1, 5, 10]}
# We will use a Support Vector Classifier with "rbf" kernel
svm = KNeighborsClassifier()
# Arrays to store scores
non_nested_scores = np.zeros(NUM_TRIALS)
nested_scores = np.zeros(NUM_TRIALS)
# Loop for each trial
for i in range(NUM_TRIALS):
# Choose cross-validation techniques for the inner and outer loops,
# independently of the dataset.
# E.g "GroupKFold", "LeaveOneOut", "LeaveOneGroupOut", etc.
inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)
# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_
# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()
score_difference = non_nested_scores - nested_scores
preds=clf.best_estimator_.predict(X_test)
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, preds)
one, two, three, four,five,six,seven,eight,nine = confusion_matrix(y_test, preds).ravel()
Проблема, с которой я сталкиваюсь, связана с построением матрицы путаницы, я столкнулся с этой следующей ошибкой :
ValueError Traceback (most recent call last)
<ipython-input-22-13536688e18b> in <module>()
45 from sklearn.metrics import confusion_matrix
46 cm = confusion_matrix(y_test, preds)
---> 47 one, two, three, four,five,six,seven,eight,nine = confusion_matrix(y_test, preds).ravel()
48 cm = [[one,two],[three,four],[five,six],[seven,eight],[nine,eight]]
49 ax= plt.subplot()
ValueError: too many values to unpack (expected 9)
Я не уверен, как это исправить. У меня есть 9 целевых переменных в моем наборе данных, сохраненных в y.
[11 11 11 ... 33 33 33] #the target variables being : 11,12,13,21,22,23,31,32,33
И это начало моего набора данных объектов:
Duration Grand Mean Max Mean Activation
0 64 136.772461 178.593750
1 67 193.445196 258.515625
2 67 112.382929 145.765625