Что означает высокий VIF для постоянного члена (перехват)? - PullRequest
0 голосов
/ 11 января 2020

Я строю модель линейной регрессии на наборе данных автомобилей, используя технику RFE и библиотеку statsmodels. Моя окончательная модель имеет значение p в пределах 5% и имеет высокую F-статистику. Значения VIF для предикторов значительно ниже 5, но для постоянного члена (перехвата) VIF составляет 8,18. Я использовал add_constant метод, чтобы добавить константу в модель. Вот мои сомнения:

  1. Что означает высокая дисперсия для константы?
  2. Должен ли я игнорировать постоянный член при расчете VIF?

Это мои результаты:

This is the summary of my final model

VIF results for the model

Я новичок в машинном обучении и также впервые размещаю вопрос на этом сайте. Пожалуйста, дайте мне знать, если потребуется дополнительная информация, чтобы ответить на мой вопрос.

1 Ответ

0 голосов
/ 12 января 2020

статистический вопрос лучше задать на stats.stackexchange. Тем не менее, я только что прошел это для statsmodels, например, https://github.com/statsmodels/statsmodels/issues/2376

Во-первых, в вашей модели и данных нет проблемы мультиколлинеарности. Значения p низкие, а доверительные интервалы довольно узкие, поэтому параметры в модели должны быть хорошими оценками. VIF, равный 8, невелик.

Большой VIF в константе указывает, что объясняющие переменные (наклона) также имеют большую постоянную составляющую. Примером может служить случай, когда переменная имеет большое среднее значение, но имеет небольшую дисперсию. Примером идеальной коллинеарности с дефицитом констант и рангов матрицы проектирования является ловушка фиктивной переменной, когда мы не удалили один из уровней категориальной переменной в фиктивном кодировании, а фиктивная сумма равна 1 и, следовательно, реплицирует константу .

Целью включения константы в вычисление vif является обнаружение такого рода проблем с матрицей проектирования exog, предоставленной пользователем. Он не будет отображаться, если мы вычислим vif для унифицированных или стандартизированных объясняющих переменных.

В статистике и эконометрике давно ведутся дебаты о том, должны ли меры мультиколлинеарности включать константу или работать только с унифицированными объясняющими переменными.

В настоящее время я готовлю расширение для statsmodels, которое дает пользователям возможность вычислять обе версии, с константой и без нее. В некоторых случаях репараметризация, унижение и масштабирование могут улучшить числовую точность и прогноз. Таким образом, мы хотим иметь меры, которые проверяют фактическую матрицу проектирования, предоставленную пользователями, но также проверяют стандартизированную версию данных, чтобы увидеть, могут ли уклонение и масштабирование улучшить числовую точность.

...