Запуск одной и той же модели glm с помощью каретки обеспечивает разную точность и ошибки - PullRequest
0 голосов
/ 06 октября 2018

Как указано в заголовке, запуск одной и той же модели glm с caret возвращает различные значения точности и ошибки (без ошибок ИЛИ glm.fit: fitted probabilities numerically 0 or 1 occurred ИЛИ 1: In predict.lm(object, newdata, se.fit, scale = 1, type = ifelse(type == : prediction from a rank-deficient fit may be misleading).Если я устанавливаю начальное число и всегда запускаю его с начальным значением, а затем с моделью, как и ожидалось, я всегда получаю одно и то же сообщение о точности и ошибке (или без ошибки).

При запуске той же модели с функцией glm()Коэффициенты всегда одинаковы (как с caret), но я никогда не получаю ошибок в этом случае.Должен ли я просто интерпретировать это как проблему с повторной выборкой, или могут ошибки, предоставленные glm пакета caret, иметь какое-то важное значение, если они зависят от seed?

Я искал это и хотяЯ предполагаю, что это как-то связано с передискретизацией, я не совсем понимаю, как это работает, и хотел бы помочь в понимании этого.Кроме того, я пытаюсь использовать пакет caret для всего моделирования, поэтому я также хотел бы получить некоторую помощь, пытаясь понять, должен ли я вместо этого запускать свой процесс, всегда выполняя glm() вместо пакета caret,поскольку это всегда будет давать мне одно и то же сообщение об ошибке сразу, независимо от начального числа.

Данные получены от клиента, поэтому я предпочел бы не делиться ими.Я использую формулу (пример) просто train(Y ~ X + Z + A, data = df, method = "glm") для версии caret и glm(Y ~ X + Z + A, data = df, family = binomial()) в функции glm().

...