Сбой контрольной точки DRF с перекрестной проверкой с ошибкой «ERRR: _weights_column: столбец весов« __internal_cv_weights__ »не найден в рамке обучения» - PullRequest
0 голосов
/ 01 мая 2020

Пробовал на 28.0.2 и последних версиях 30.0.1.

Создайте первый DRF:

rf1 <- h2o.randomForest(
  model_id="first_drf1_x1",
  x = f2,
  y = r1,
  training_frame = train1,
  validation_frame = valid1,
  ntrees = 49,
  nfolds = 5,
 seed = 1
)

Обучите его, и они попытаются продолжить обучение с этой модели следующим образом:

rf2 <- h2o.randomForest(
  model_id="second_drf1_x2",
  x = f2,
  y = r1,
  training_frame = train2,
  validation_frame = valid2,
  ntrees = (49+50),
  nfolds = 5,
  checkpoint = "first_drf1_x1",
  seed = 1

)

Непосредственно в журналах это можно увидеть:

POST /3/ModelBuilders/drf, parms: {model_id=second_drf1_x2, validation_frame=RTMP_sid_aea1_16, response_column=pcs7_e_dt_4010u, training_frame=RTMP_sid_aea1_14, seed=1, nfolds=5, ntrees=99, ignored_columns=["ts","leve_batch_nbr"], checkpoint=first_drf1_x1}
04-30 10:20:34.601 127.0.0.1:54321       55804  FJ-1-5    INFO: Creating 5 cross-validation splits with random number seed: 1
04-30 10:20:34.612 127.0.0.1:54321       55804  FJ-1-5    ERRR: _weights_column: Weights column '__internal_cv_weights__' not found in the training frame

Когда создана первая модель, создано 5 моделей CV, и у них установлено внутреннее поле следующим образом:

“_weights_column":"internal_cv_weights",

но когда тренируется основная первая модель, тогда:

Building main model.
...
“_weights_column":null,

Я открыл ошибку в h2o jira, но, возможно, кто-то уже видел эту проблему и имеет обходной путь. Если nfolds установлен в 0 (отключение перекрестной проверки) - тогда все работает просто отлично

...