метод прогнозирования в H2O - что означает столбец прогнозирования в случае классификации - PullRequest
0 голосов
/ 30 октября 2019

Вот мой код (простая задача классификации с h2o)

library(h2o)
h2o.init()
df_h2o <- as.h2o(Titanic)
y <- "Survived"
x <- setdiff(names(df_h2o), y)
model_test <- h2o.gbm(training_frame = df_h2o, x = x, y = y)
pred_model_test <- h2o.predict(object = model_test, newdata = df_h2o)
as.data.frame(pred_model_test)

Здесь частичный вывод последней строки:

predict        No       Yes
1       No 0.6665519 0.3334481
2       No 0.7618396 0.2381604
3      Yes 0.3836010 0.6163990
4       No 0.6665519 0.3334481
5       No 0.6665519 0.3334481
6       No 0.7618396 0.2381604
7      Yes 0.3836010 0.6163990
8       No 0.6665519 0.3334481
9      Yes 0.4391064 0.5608936
10     Yes 0.5561055 0.4438945
11     Yes 0.5684065 0.4315935

В строке 11 столбца прогнозирования есть Yes,в то время как Yes вероятность составляет всего 0,4315935. Какие значения в столбце прогноза тогда?

1 Ответ

1 голос
/ 30 октября 2019

см. Документацию здесь

Порог прогнозирования

Для задач классификации при запуске h2o.predict () или .predict () порог прогнозирования выбирается следующим образом:

Если вы тренируете модель только с данными обучения, то используется порог Max F1 из метрик модели данных поезда. Если вы тренируете модель с данными поезда и проверки, используется порог Max F1 из показателей модели данных проверки. Если вы тренируете модель с данными поезда и устанавливаете параметр nfold, используется порог Max F1 из метрик модели данных обучения. Если вы тренируете модель с данными поезда и данными проверки, а также устанавливаете параметр nfold, используется пороговое значение Max F1 из показателей модели данных проверки.

...