Вот мой код (простая задача классификации с h2o)
library(h2o)
h2o.init()
df_h2o <- as.h2o(Titanic)
y <- "Survived"
x <- setdiff(names(df_h2o), y)
model_test <- h2o.gbm(training_frame = df_h2o, x = x, y = y)
pred_model_test <- h2o.predict(object = model_test, newdata = df_h2o)
as.data.frame(pred_model_test)
Здесь частичный вывод последней строки:
predict No Yes
1 No 0.6665519 0.3334481
2 No 0.7618396 0.2381604
3 Yes 0.3836010 0.6163990
4 No 0.6665519 0.3334481
5 No 0.6665519 0.3334481
6 No 0.7618396 0.2381604
7 Yes 0.3836010 0.6163990
8 No 0.6665519 0.3334481
9 Yes 0.4391064 0.5608936
10 Yes 0.5561055 0.4438945
11 Yes 0.5684065 0.4315935
В строке 11 столбца прогнозирования есть Yes
,в то время как Yes
вероятность составляет всего 0,4315935. Какие значения в столбце прогноза тогда?