Учитывая данные выборки пропорций успехов плюс размеры выборки и независимую переменную (и), я пытаюсь логистической регрессии в R.
Следующий код делает то, что я хочу, и, кажется, дает ощутимые результаты, но не выглядит как разумный подход; фактически он удваивает размер набора данных
datf <- data.frame(prop = c(0.125, 0, 0.667, 1, 0.9),
cases = c(8, 1, 3, 3, 10),
x = c(11, 12, 15, 16, 18))
datf2 <- rbind(datf,datf)
datf2$success <- rep(c(1, 0), each=nrow(datf))
datf2$cases <- round(datf2$cases*ifelse(datf2$success,datf2$prop,1-datf2$prop))
fit2 <- glm(success ~ x, weight=cases, data=datf2, family="binomial")
datf$proppredicted <- 1 / (1 + exp(-predict(fit2, datf)))
plot(datf$x, datf$proppredicted, type="l", col="red", ylim=c(0,1))
points(datf$x, datf$prop, cex=sqrt(datf$cases))
создание диаграммы типа
, который выглядит достаточно разумным.
Но меня не устраивает использование datf2
в качестве способа разделения успехов и неудач путем дублирования данных. Нужно ли что-то подобное?
В качестве небольшого вопроса, существует ли более чистый способ расчета прогнозируемых пропорций?