Представьте себе сценарий, в котором у вас есть набор данных с 2 предикторами (var_1, var-2) и помеченной переменной ответа. Через некоторое время добавляется новый предиктор (var_3), но поскольку var_3 имеет более короткие исторические данные по сравнению с var_1 и var_2, я предполагаю, что будет невозможно моделировать с использованием всего набора данных, то есть включая var_1, var_2 и var_3, так как последний будет иметь недостающие данные. У меня вопрос, как подойти к такой проблеме, когда у набора данных во времени будет больше предикторов?
'''
data <- matrix(rnorm(30), 10, 3)
colnames(data) = c("response", "var_1", "var_2")
response var_1 var_2
[1,] 0.038116475 0.45150533 0.9154252
[2,] 0.394068950 -0.43294705 -0.9393380
[3,] -1.504085198 0.71360290 0.1121248
[4,] -1.586890794 0.96069547 0.5530126
[5,] -0.927118077 0.38153521 0.5317420
[6,] 0.776197040 1.21807280 -0.8737624
[7,] -0.780684440 -0.01713726 -0.1868493
[8,] -1.278567024 -0.03820949 -0.2137105
[9,] -0.001428128 1.24373439 -0.2040113
[10,] -1.850978124 -0.95585875 1.7197092
Через некоторое время мы добавляем новый предиктор var_3
response var_1 var_2 var_3
[1,] 0.038116475 0.45150533 0.9154252 NA
[2,] 0.394068950 -0.43294705 -0.9393380 NA
[3,] -1.504085198 0.71360290 0.1121248 NA
[4,] -1.586890794 0.96069547 0.5530126 NA
[5,] -0.927118077 0.38153521 0.5317420 NA
[6,] 0.776197040 1.21807280 -0.8737624 NA
[7,] -0.780684440 -0.01713726 -0.1868493 NA
[8,] -1.278567024 -0.03820949 -0.2137105 NA
[9,] -0.001428128 1.24373439 -0.2040113 NA
[10,] -1.850978124 -0.95585875 1.7197092 NA
[11,] 0.08958932 -1.2220337 -0.91692374 0.4352421
[12,] -0.21351694 0.2055700 0.53592423 -1.4622869
[13,] -1.39578633 -1.1195502 0.30441181 1.6598528
[14,] -0.14323759 1.1781007 0.66461454 0.6997962
[15,] 0.72271888 -0.1158677 -0.15004377 0.2019941
[16,] -0.34812116 -0.2756948 0.15731946 -1.0239596
[17,] -0.58023446 -0.6770240 -0.37226248 0.8772127
[18,] 0.27493869 1.8922857 0.21820601 1.7390428
[19,] 0.31573697 -1.9457781 -1.01529902 -0.2610902
[20,] 1.35391920 3.5148579 1.08150572 0.3116658
Как создать прогностическую модель, в которой мы не игнорируем данные из строк 1:10, а как-то их объединяем.