Я заметил, что для некоторых прогонов:
train=as.h2o(u)
mod = h2o.glm(family= "binomial", x= c(1:15), y="dc",
training_frame=train, missing_values_handling = "Skip",
lambda = 0, compute_p_values = TRUE, nfolds = 10,
keep_cross_validation_predictions= TRUE)
в сводке метрик перекрестной проверки AUC есть NaN для некоторых cv итераций модели.
Например:
print(mod@model$cross_validation_metrics_summary["auc",])
Сводка метрик перекрестной проверки:
mean sd cv_1_valid cv_2_valid cv_3_valid cv_4_valid cv_5_valid cv_6_valid cv_7_valid cv_8_valid cv_9_valid cv_10_valid
auc 0.63244045 0.24962118 0.25 0.6666667 0.8095238 1.0 0.6666667 0.46666667 NaN NaN 1.0 0.2
Кажется, что NaN в резюме появляется реже, когда я устанавливаю меньшие nfolds = 7.
Как эти значения NaN должныбыть интерпретированным, и когда кросс-проверка h2o выводит их?
Я полагаю, это происходит, когда AUC не может быть правильно оценен в итерации.В моем тренировочном наборе 70 полных строк.
Можно ли считать такие результаты перекрестной проверки AUC (содержащие NaN) достоверными?