Я реализую двухстадийную модель привлечения клиентов с помощью логистической регрессии и хочу понять особую закономерность, которую я наблюдаю в остатках из пакета DHARMa R.
Модель первой стадии - пробная модель
selection_model <- glm(I(acquired > 0) ~ m * b + l + w + f,
data = aggregate_df,
family = binomial(link = "probit"))
Затем я добавляю коэффициент обратных мельниц следующим образом:
aggregate_df$IMR = dnorm(selection_model$linear.predictors)/pnorm(selection_model$linear.predictors)
Модель второго этапа имеет те же предикторы, за исключением того, что коэффициент обратных мельниц также добавляется в качестве предиктора.Кроме того, мне интересно посмотреть на тех клиентов, чей общий объем продаж превысил X. Это отражено в двоичной индикаторной переменной I(dollar_sales > X)
, которая является моделью I результата на втором этапе.
model_logit <- glm(I(dollar_sales > X) ~ IMR + m * b + l + w + f +
I(f^2) + I(l^2),
data = aggregate_df,
family = binomial(link = "logit"))
Затем я строю остатки этой модели, используя пакет DHARMa, следующим образом:
simulated_residuals = DHARMa::simulateResiduals(model_logit, n = 50)
plot(simulated_residuals)
У меня есть следующие вопросы:
- Почему наниз и верх графика QQ?Является ли это причиной беспокойства (как показывает тест KS)?
- График остаточных и прогнозируемых значений в порядке, за исключением выбросов.Это также ожидаемое поведение