статистический вопрос лучше задать на stats.stackexchange. Тем не менее, я только что прошел это для statsmodels, например, https://github.com/statsmodels/statsmodels/issues/2376
Во-первых, в вашей модели и данных нет проблемы мультиколлинеарности. Значения p низкие, а доверительные интервалы довольно узкие, поэтому параметры в модели должны быть хорошими оценками. VIF, равный 8, невелик.
Большой VIF в константе указывает, что объясняющие переменные (наклона) также имеют большую постоянную составляющую. Примером может служить случай, когда переменная имеет большое среднее значение, но имеет небольшую дисперсию. Примером идеальной коллинеарности с дефицитом констант и рангов матрицы проектирования является ловушка фиктивной переменной, когда мы не удалили один из уровней категориальной переменной в фиктивном кодировании, а фиктивная сумма равна 1 и, следовательно, реплицирует константу .
Целью включения константы в вычисление vif является обнаружение такого рода проблем с матрицей проектирования exog
, предоставленной пользователем. Он не будет отображаться, если мы вычислим vif для унифицированных или стандартизированных объясняющих переменных.
В статистике и эконометрике давно ведутся дебаты о том, должны ли меры мультиколлинеарности включать константу или работать только с унифицированными объясняющими переменными.
В настоящее время я готовлю расширение для statsmodels, которое дает пользователям возможность вычислять обе версии, с константой и без нее. В некоторых случаях репараметризация, унижение и масштабирование могут улучшить числовую точность и прогноз. Таким образом, мы хотим иметь меры, которые проверяют фактическую матрицу проектирования, предоставленную пользователями, но также проверяют стандартизированную версию данных, чтобы увидеть, могут ли уклонение и масштабирование улучшить числовую точность.