Я пытаюсь сделать прогноз будущего трафика сайта c на основе данных опроса (iv1, iv2, iv3 и др. c). Предполагается, что модель будет работать на основе предыдущих данных и прогнозировать будущие трафик сайта c с использованием уже полученных данных.
Регрессия включает полный фрейм данных и учитывает будущие данные трафика сайта c, которые отсутствуют в q. Данные тестирования представлены только за январь и февраль и содержат все данные опроса, но не содержат трафик сайта c, потому что это еще не произошло.
Мои данные выглядят примерно так.:
date <- c(3-28-2019, 4-28-2019, 5-28-2019, 6-28-2019, 7-28-2019, 8-28-2019,
9-28-2019, 10-28-2019, 11-28-2019, 12-28-2019, 1-28-2020, 2-28-2020)
sitetraffic <- c(80, 99, 70, 65, 88, 90, 76, 65, 67, 68, NA, NA)
iv1 <- c(82, 93, 72, 61, 89, 93, 71, 63, 64, 65, 82, 62)
iv2 <- c(80, 99, 82, 62, 70, 65, 88, 90, 76, 93, 71, 99)
iv3 <- c(71, 63, 64, 71, 99, 76, 65, 67, 93, 72, 68, 89)
#etc
Вот код:
q = !is.na(d$revenue) #q handles the extra NA values in the future site traffic
lm = lm(sitetraffic ~ iv1 + iv2 + iv3 + iv4 + iv5 + iv6 + iv7 + iv8 + iv9
+ iv10 + iv11 + iv12 + iv13 + iv14, data = dataframe, q)
fcast <- predict(lm, test)
Этот код предсказывает, как и ожидалось, когда я включаю только около 10 независимых переменные, но тогда я просто получаю NA, если я буду использовать больше. Я также пробовал Forex.Lm () и предсказания (), но ни один не работал со всеми IV. Любые другие более мощные версии предиката (), которые могут обрабатывать больше iv?