Как применить машинное обучение к набору данных с различным количеством предикторов, использующих R? - PullRequest
0 голосов
/ 05 апреля 2019

Представьте себе сценарий, в котором у вас есть набор данных с 2 предикторами (var_1, var-2) и помеченной переменной ответа. Через некоторое время добавляется новый предиктор (var_3), но поскольку var_3 имеет более короткие исторические данные по сравнению с var_1 и var_2, я предполагаю, что будет невозможно моделировать с использованием всего набора данных, то есть включая var_1, var_2 и var_3, так как последний будет иметь недостающие данные. У меня вопрос, как подойти к такой проблеме, когда у набора данных во времени будет больше предикторов?

 '''        
 data <- matrix(rnorm(30), 10, 3)
 colnames(data) = c("response", "var_1", "var_2")

       response       var_1      var_2
[1,]  0.038116475  0.45150533  0.9154252
[2,]  0.394068950 -0.43294705 -0.9393380
[3,] -1.504085198  0.71360290  0.1121248
[4,] -1.586890794  0.96069547  0.5530126
[5,] -0.927118077  0.38153521  0.5317420
[6,]  0.776197040  1.21807280 -0.8737624
[7,] -0.780684440 -0.01713726 -0.1868493
[8,] -1.278567024 -0.03820949 -0.2137105
[9,] -0.001428128  1.24373439 -0.2040113
[10,] -1.850978124 -0.95585875  1.7197092

Через некоторое время мы добавляем новый предиктор var_3

       response       var_1      var_2       var_3
[1,]  0.038116475  0.45150533  0.9154252     NA
[2,]  0.394068950 -0.43294705 -0.9393380     NA
[3,] -1.504085198  0.71360290  0.1121248     NA
[4,] -1.586890794  0.96069547  0.5530126     NA
[5,] -0.927118077  0.38153521  0.5317420     NA
[6,]  0.776197040  1.21807280 -0.8737624     NA
[7,] -0.780684440 -0.01713726 -0.1868493     NA
[8,] -1.278567024 -0.03820949 -0.2137105     NA
[9,] -0.001428128  1.24373439 -0.2040113     NA
[10,] -1.850978124 -0.95585875  1.7197092    NA
[11,]  0.08958932 -1.2220337 -0.91692374  0.4352421
[12,] -0.21351694  0.2055700  0.53592423 -1.4622869
[13,] -1.39578633 -1.1195502  0.30441181  1.6598528
[14,] -0.14323759  1.1781007  0.66461454  0.6997962
[15,]  0.72271888 -0.1158677 -0.15004377  0.2019941
[16,] -0.34812116 -0.2756948  0.15731946 -1.0239596
[17,] -0.58023446 -0.6770240 -0.37226248  0.8772127
[18,]  0.27493869  1.8922857  0.21820601  1.7390428
[19,]  0.31573697 -1.9457781 -1.01529902 -0.2610902
[20,]  1.35391920  3.5148579  1.08150572  0.3116658

Как создать прогностическую модель, в которой мы не игнорируем данные из строк 1:10, а как-то их объединяем.

...