spam <- read.csv("spam.csv")
names(spam) <-c ("w_make","w_address","w_all","w_3d","w_our","w_over","w_remove","w_internet","w_order","w_mail","w_receive","w_will","w_people","w_report", "w_addresses","w_free", "w_business", "w_email","w_you", "w_credit", "w_your", "w_font", "w_000", "w_money", "w_hp", "w_hpl", "w_george", "w_650", "w_lab", "w_labs", "w_telnet", "w_857", "w_data", "w_415", "w_85", "w_technology", "w_1999", "w_parts", "w_pm", "w_direct", "w_cs", "w_meeting", "w_original", "w_project", "w_re", "w_edu", "w_table", "w_conference", "c_semicolon", "c_roundparen", "c_squareparen", "c_exclaim", "c_dollar", "c_hash", "caps_avg", "caps_long", "caps_total", "spam")
yspam <- spam$spam
nspam <- nrow(spam)
null <- glm(yspam ~ 1, family=binomial(link=logit), data=spam)
full <- glm(yspam ~ . + .^2, family=binomial(link=logit), data=spam)
fwd <- step(null, scope=formula(yspam ~ .),
direction="forward", k=log(nspam))
Я пытаюсь создать модель glm, чтобы предсказать, является ли электронная почта спамом или нет, на основе набора данных с 58 ковариатами, в том числе, является ли электронная почта спамом или нет.Я пытаюсь сгенерировать наилучшую возможную модель, используя пошаговую функцию в R, чтобы получить модель с наименьшим значением BIC, но продолжаю получать сообщение об ошибке: glm.fit: алгоритм не сходится glm.fit: подогнанные вероятности численно 0 или 1 произошло
Есть предложения?