Как правильно рассчитать показатели производительности при использовании KFold CV или Stratified CV? - PullRequest
0 голосов
/ 16 января 2020

Прочитав несколько учебных пособий, я впервые построил модель глубокого обучения Keras, будучи новичком в области машинного обучения и глубокого обучения. Большинство обучающих программ используют разделение «поезд-тест» для обучения и тестирования модели. Тем не менее, я решил использовать StratifiedKFold CV. Код приведен ниже.

X = dataset[:,0:80].astype(float)
Y = dataset[:,80]
kfold = StratifiedKFold(n_splits=10,random_state=seed)
for train, test in kfold.split(X, Y):
   # create model
  model = Sequential()
  model.add(Dense())
  model.add(Dense(1, activation='sigmoid'))
  model.compile(loss='binary_crossentropy', optimizer='Adam',metrics=['accuracy'])
  model.fit(X[train], Y[train], epochs=100,batch_size=128, verbose=0)
  scores = model.evaluate(X[test], Y[test], verbose=1)
  print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
  cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))

Y[pred]= model.predict(X[test])
acc = accuracy_score(Y[test],Y[pred])
confusion = confusion_matrix(Y[test], Y[pred])
print(confusion)
plot_confusion_matrix(confusion, classes =['No','Yes'],title='Confusion Matrix')
TP= confusion[1,1]
TN= confusion[0,0]
FP= confusion[0,1]
FN= confusion[1,0]
print('Accuracy: ')
print((TP + TN) / float(TP + TN + FP + FN))
print(accuracy_score(Y[test],Y[pred]))

fpr, tpr, thresholds = roc_curve(Y[test], y_pred_prob)
plt.plot(fpr, tpr)

print(roc_auc_score(y_test, y_pred_prob))

y_pred_class = binarize([y_pred_prob], 0.3)[0]

confusion_new = confusion_matrix(Y[test], y_pred_class)
print(confusion_new)

Я понял теоретическую концепцию Kfold CV и StratifiedKFoldCV. Я сталкивался с Что именно делает KFold в python? , Перекрестная проверка KFolds против train_test_split и еще несколько ссылок. Но когда я вычисляю метрики производительности, это дает мне следующие ошибки:

NameError: name 'pred' is not defined
NameError: name 'y_pred_prob' is not defined
NameError: name 'roc_curve' is not defined

Что я здесь не так делаю? Почему я получаю эти ошибки? Как мне это исправить?

Спасибо.

1 Ответ

0 голосов
/ 16 января 2020

Вот способ, которым вы можете попробовать:

X = dataset[:,0:80].astype(float)
Y = dataset[:,80]

# define model
model = Sequential()
model.add(Dense(10))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='Adam',metrics=['accuracy'])

# create folds
folds = list(StratifiedKFold(n_splits=10, shuffle=True, random_state=1).split(X, Y))

# train model for every fold
for j, (train_idx, val_idx) in enumerate(folds):

    print('\nFold ',j)
    X_train_cv = X[train_idx]
    y_train_cv = Y[train_idx]
    X_valid_cv = X[val_idx]
    y_valid_cv= Y[val_idx]

    model.fit(X_train_cv, 
              y_train_cv, 
              epochs=100,
              batch_size=128, 
              validation_data = (X_valid_cv, y_valid_cv),
              verbose=0)

    print(model.evaluate(X_valid_cv, y_valid_cv))

    # check metrics for each fold
    pred = model.predict(X_valid_cv)
    acc = accuracy_score(y_valid_cv, pred)
    confusion = confusion_matrix(y_valid_cv, pred)
    print(confusion)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...