Я пытаюсь проанализировать данные, которые показывают, что люди заболевают или нет. То есть ответ является двоичным. Я применил логистическую регрессию. Предположим, что результат log.reg
(логистическая регрессия) подобен;
ID = c(1,2,3,4)
Test_Data = c(0,1,1,0)
Log.Reg_Output = c(0.01,0.4,0.8,0.49)
result = data.frame(ID,Test_Data,Reg_Output)
result
# 1 | 0 | 0.01
# 2 | 1 | 0.4
# 3 | 1 | 0.8
# 4 | 0 | 0.49
Могу ли я сказать, что человек с ID = 3 заразится на 80%? Это правильный подход? Если нет, то почему? Я так растерялся, любая помощь будет отличной!
Второй вопрос: как я могу рассчитать коэффициент точности, кроме округления результата модели 0 или 1. Потому что, я думаю, округление от 0,49 до 0 не столь значимо.
В моем примере вывод модели будет изменяться на 0,0,1,0 вместо 0,01, 0,4, 0,8, 0,49 на основе больше или меньше 0,5. И уровень точности будет 75%. Есть ли другой метод расчета?
Спасибо!