Я рассчитываю провести линейную регрессию в R для моделирования влияния 5 независимых переменных на 376 столбцов данных.
У меня большая матрица (541 строка и 402 столбца) с именем 'dd' и я хочу подключить только определенные столбцы из матрицы как IV и DV в регрессии. От dd я хочу 376 указанных c столбцов для формирования моих DV и 5 столбцов для формирования моих IV. Я использовал имена каждого столбца (например, «column_42») в качестве индексов, отдельно для IV и DV:
IVind=paste0('column_',c(4,14,15,24,43)) #index for IV
DVind=paste0('column_',c(10:13, 17:18, 26, 28, 49:54, 58, 60, 1001:1180, 2001:2180)) #index for DV
IV <-(dd[,IVind]) #save independent variables in 'IV'
DV <-(dd[,DVind]) #save independent variables in 'DV'
Я пробовал подключать IV и DV к линейной регрессии, например так:
try <- lm(DV~IV)
, но получили следующую ошибку: Ошибка в [[<-.data.frame
(*tmp*
, i, значение = c (2113L, 2031L, 1971L,: замена имеет 203040 строк, данные имеют 540
Можно ли как-нибудь обойти эту ошибку? Я понимаю, что это может быть связано с тем, что мои IV и DV были сохранены в отдельных матрицах?
Я пытался индексировать dd непосредственно в функции регрессии:
lm(dd[,DVind]~dd[,IVind])
только для получения той же ошибки.
Любая помощь высоко ценится, спасибо!