Я моделирую цены на буррито в Сан-Диего, чтобы определить, завышены ли цены на некоторые буррито (в зависимости от модели).Я пытаюсь использовать regsubsets () для определения наилучшей линейной модели, используя BIC, на фрейме данных из 76 наблюдений 14 переменных.Тем не менее, я продолжаю получать сообщение о том, что переменные длины различаются, и, следовательно, линейная модель не работает.
Я попытался округлить все наблюдения во фрейме данных до одного десятичного знака, я использовал функцию length () для каждой переменной во фрейме данных, чтобы убедиться, что все они имеют одинаковую длину,и прежде чем я сделал модель, я использовал na.omit () на фрейме данных, чтобы убедиться, что нет NA.Кстати, исходный набор данных можно найти здесь: https://www.kaggle.com/srcole/burritos-in-san-diego. Сначала я немного очистил его в Excel, удалив все категориальные переменные, которые появились после столбца «Общий».
burritos <- read.csv("/Users/Jack/Desktop/R/STOR 565 R Projects/Burritos.csv")
burritos <- burritos[ ,-c(1,2,5)]
burritos <- na.exclude(burritos)
burritos <- round(burritos, 1)
library(leaps)
library(MASS)
yelp <- burritos$Yelp
google <- burritos$Google
cost <- burritos$Cost
hunger <- burritos$Hunger
tortilla <- burritos$Tortilla
temp <- burritos$Temp
meat <- burritos$Meat
filling <- burritos$Meat.filling
uniformity <- burritos$Uniformity
salsa <- burritos$Salsa
synergy <- burritos$Synergy
wrap <- burritos$Wrap
overall <- burritos$overall
variable <- sample(1:nrow(burritos), 50)
train <- burritos[variable, ]
test <- burritos[-variable, ]
null <- lm(cost ~ 1, data = train)
full <- regsubsets(cost ~ ., data = train) #This is where error occurs