Мои данные включают в себя данные опроса покупателей автомобилей. У моих данных есть весовой столбец, который я использовал в SPSS для получения размеров выборки. Вес столбца зависит от демографических факторов и продаж автомобилей. Сейчас я пытаюсь собрать модель логистической регрессии для автомобильного сегмента, который включает несколько транспортных средств. Я хочу использовать столбец веса в модели логистической регрессии, и я попытался сделать это, используя «веса» в функции glm. Но результаты ужасны. Отклонения слишком высоки, McFadden Rsquare слишком низок. Моя зависимая переменная является двоичной, независимые переменные имеют шкалу от 1 до 5. Вес столбца числовой, колеблется от 32 до 197. Может ли это быть причиной плохих результатов? Нужно ли иметь значения в столбце веса ниже 1?
Формат входного файла в R - -
WGT output I1 I2 I3 I4 I5
67 1 1 3 1 5 4
I1, I2, I3 - независимые переменные
logr<-glm(output~1,data=data1,weights=WGT,family="binomial")
logrstep<-step(logr,direction = "both",scope = formula(data1))\
logr1<-glm(output~ (formula from final iteration),weights = WGT,data=data1,family="binomial")
hl <- hoslem.test(data1$output,fitted(logr1),g=10)
Я хочу модель логистической регрессии с большей точностью и лучше понять использование весов с логистической регрессией