Я тренируюсь по логистической регрессии в R. Я использую набор поездов и набор тестов. У меня есть некоторые данные и двоичный вывод.
В файле данных выводятся целые числа 1 или 0 без пропущенных значений. У меня больше 1, чем 0 (пропорция 70/30).
Результат LR сильно различается в зависимости от того, изменяю ли я выходные данные или нет, а именно, сохраняю ли я выходную переменную в виде числового 0-1 и пишу
m1 <- glm(output~.,data=dt_tr,family=binomial())
тогда я получаю что-то без предупреждений и ошибок, и если я пишу
dt$output<-as.factor(ifelse(dt$output == 1, "Good", "Bad"))
m1 <- glm(output~.,data=dt_tr,family=binomial())
У меня совершенно другая производительность! Что бы это могло быть?
Если быть более точным, после обучения LR я делаю следующее:
score <- predict(m1,type='response',dt_test)
m1_pred <- prediction(m1_score, dt_test$output)
m1_perf <- performance(m1_pred,"tpr","fpr")
#ROC
plot(m1_perf, lwd=2, main="ROC")
Я получаю очень разные ROC и AUC.