Я работаю над проблемой регрессии.
Я использую RRF в R для реализации проблемы.
Я сделал два разных набора данных: один для обучения, другой для тестирования.
library(RRF)
train=read.csv('training_data.csv'.header=F)
model <- RRF(as.numeric(V128) ~ .,data=train, flagReg = 1,importance=TRUE,ntree=1000, keep.forest=TRUE,type=regression,na.action=na.roughfix)
print(model)
Call:
RRF(formula = as.numeric(V128) ~ ., data = train, flagReg = 1, importance = TRUE, ntree = 1000, keep.forest = TRUE, type = regression, na.action = na.roughfix)
Type of random forest: regression
Number of trees: 1000
No. of variables tried at each split: 2656
Mean of squared residuals: 0.03509357
% Var explained: 81.5
Теперь, когда я использую эту модель для прогнозирования тестового набора.
test = read.csv('testing_data.csv',header=F)
predict(model,test,type="response")
Это даёт NA для всего набора тестовых данных.
Когда я пробую это для набора данных поезда, это все еще дает мне то же самое. Чего я не ожидал
Когда я бегу
predict(model,new_data=test,type="response")
или
predict(model,new_data=train,type="response")
Возвращено предсказание вне объекта в объекте. Что подразумевает данные, не предоставленные.
Что я должен сделать, чтобы получить прогноз? После этого я также хочу найти точность или производительность для прогнозов.