Обучающие данные, train_df
должны иметь все столбцы, перечисленные как x
(c("month", "lag12", "trend", "trend_sqr")
) и y
("y"
), тогда как данные, которые вы передаете h2o.predict()
, просто должны иметь столбцы в x
; y-столбец - это то, что будет возвращено в качестве прогноза.
Поскольку у вас есть особенности (в x
), такие как отставание, тренд и т. Д., Тот факт, что это временной ряд, не имеет значения. (Но вы должны быть очень осторожны при подготовке этих функций, чтобы убедиться, что вы не используете в них какую-либо информацию, которая не была известна на тот момент - но я думаю, что книга уже подчеркивала это.)
Обычно с временным рядом для данной строки в обучающих данных ваши x
данные являются данными, известными в момент времени t, а значение в столбце y
является интересующим значением в момент времени t + 1. , Поэтому, когда вы делаете прогноз, вы задаете x
значения в качестве значений в момент , и возвращаемое предсказание - это то, что произойдет дальше.