Остаточный участок из логистической регрессии - PullRequest
0 голосов
/ 26 сентября 2019

Я реализую двухстадийную модель привлечения клиентов с помощью логистической регрессии и хочу понять особую закономерность, которую я наблюдаю в остатках из пакета DHARMa R.

Модель первой стадии - пробная модель

selection_model <- glm(I(acquired > 0) ~ m * b + l + w + f,
                       data = aggregate_df,
                       family = binomial(link = "probit"))

Затем я добавляю коэффициент обратных мельниц следующим образом:

aggregate_df$IMR = dnorm(selection_model$linear.predictors)/pnorm(selection_model$linear.predictors)

Модель второго этапа имеет те же предикторы, за исключением того, что коэффициент обратных мельниц также добавляется в качестве предиктора.Кроме того, мне интересно посмотреть на тех клиентов, чей общий объем продаж превысил X. Это отражено в двоичной индикаторной переменной I(dollar_sales > X), которая является моделью I результата на втором этапе.

model_logit <- glm(I(dollar_sales > X) ~ IMR + m * b + l + w + f + 
                                         I(f^2) + I(l^2),
                   data = aggregate_df,
                   family = binomial(link = "logit"))

Затем я строю остатки этой модели, используя пакет DHARMa, следующим образом:

simulated_residuals = DHARMa::simulateResiduals(model_logit, n = 50)
plot(simulated_residuals)

У меня есть следующие вопросы:

  1. Почему наниз и верх графика QQ?Является ли это причиной беспокойства (как показывает тест KS)?
  2. График остаточных и прогнозируемых значений в порядке, за исключением выбросов.Это также ожидаемое поведение

Residual plot from logistic regression

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...