Я прошел курс Edx The Analytics Edge, и в настоящее время я нахожусь в разделе логистической c регрессии: часть Framingham Heart Study. Здесь они используют функцию прогнозирования пакета ROCR для прогнозирования точности данных с пороговым значением, установленным на 0,5. Я загрузил файл .csv с портала курсов edx и написал точно такой же код, но получаю сообщение об ошибке, что «Прогнозы» содержат NA. Вот код:
framingham = read.csv ("framingham.csv")
str (Framingham)
library (caTools)
# framingham <- na.omit (framingham) # Если я использую эту строку, код работает нормально, но люди должны все время работать с данными с пропущенными значениями. Так что он должен работать и для всех случаев. </p>
set.seed (1000)
split = sample.split (framingham $ TenYearCHD, SplitRatio = 0.65)
train = subset (framingham, split == TRUE)
test = subset (framingham, split == FALSE)
framinghamLog = glm (TenYearCHD ~., data = train, family = binomial)
сводка (framinghamLog)
predTest = прогноз (framinghamLog, type = "response", newdata = test)
таблица (test $ TenYearCHD, predTest> 0,5)
библиотека (ROCR)
ROCRpred = prediction (predictionTest, test $ TenYearCHD)
# Это ошибка -> Ошибка: 'predictions' содержит NA.