Я подбираю модель с использованием пакета caret
в R, используя данные обучения с более чем 100 переменными-предикторами. Затем я пытаюсь использовать модель для прогнозирования результата, но только на основе некоторых значений предикторов (остальных я не знаю). Можно ли вообще предсказать в такой ситуации?
По сути, я использую этот код:
predict(<MODEL>, newdata = data.frame(<X1> = <x1>, <X2> = <x2>, <X3> = <x3>))
Однако есть <X100+>
, как уже упоминалось. Как и ожидалось, R выдает следующую ошибку: Error in eval(predvars, data, env) : object '<X4>' not found
.
Можно ли каким-то образом установить базовый уровень для других предикторов?
Если ничего не работает, я думаю просто заменяя среднее значение предикторов из моих данных на соответствующие отсутствующие предикторы. Это правильный подход? Должен ли я использовать данные поезда или тестовые данные для нахождения этих средних значений?
(Я не предоставил данные, так как не считаю их необходимыми. При необходимости я могу предоставить их. Я подогнал модель под caret
используя train(..., method = "rpart", ...)
.)