Как указано в заголовке, запуск одной и той же модели glm с caret
возвращает различные значения точности и ошибки (без ошибок ИЛИ glm.fit: fitted probabilities numerically 0 or 1 occurred
ИЛИ 1: In predict.lm(object, newdata, se.fit, scale = 1, type = ifelse(type == : prediction from a rank-deficient fit may be misleading
).Если я устанавливаю начальное число и всегда запускаю его с начальным значением, а затем с моделью, как и ожидалось, я всегда получаю одно и то же сообщение о точности и ошибке (или без ошибки).
При запуске той же модели с функцией glm()
Коэффициенты всегда одинаковы (как с caret
), но я никогда не получаю ошибок в этом случае.Должен ли я просто интерпретировать это как проблему с повторной выборкой, или могут ошибки, предоставленные glm пакета caret
, иметь какое-то важное значение, если они зависят от seed?
Я искал это и хотяЯ предполагаю, что это как-то связано с передискретизацией, я не совсем понимаю, как это работает, и хотел бы помочь в понимании этого.Кроме того, я пытаюсь использовать пакет caret
для всего моделирования, поэтому я также хотел бы получить некоторую помощь, пытаясь понять, должен ли я вместо этого запускать свой процесс, всегда выполняя glm()
вместо пакета caret
,поскольку это всегда будет давать мне одно и то же сообщение об ошибке сразу, независимо от начального числа.
Данные получены от клиента, поэтому я предпочел бы не делиться ими.Я использую формулу (пример) просто train(Y ~ X + Z + A, data = df, method = "glm")
для версии caret
и glm(Y ~ X + Z + A, data = df, family = binomial())
в функции glm()
.