Python: захват высокой коллинеарности в statsmodel (регрессия) для панельных данных - PullRequest
0 голосов
/ 19 января 2019

Я пытался решить проблему, которая заставила меня оценить, насколько успешна цифровая рекламная кампания для увеличения объема продаж.

Поскольку у нас есть только ограниченные данные о впечатлениях, я заполнил 0 для показов, которые являются нан.

Данные еженедельно и выглядят так: enter image description here

Затем я сделал диаграмму рассеяния для впечатления и объема: enter image description here

Однако, когда я пытаюсь регрессировать, используя впечатление в виде х и объем в качестве у в статистической модели, это дает мне предупреждение о коллинеарности, но я использую только впечатление в качестве переменных х. Я использую следующий код: enter image description here

И это дает мне следующий результат: enter image description here enter image description here

Может ли кто-нибудь помочь мне разобраться ?? Мой подход неверен? Я действительно сбит с толку, так как у меня только один х, коллинеарности быть не должно. Должен ли я быть обеспокоен тем, что, поскольку это данные панели, я должен использовать другие подходы? Любое предложение приветствуется, спасибо большое заранее!

1 Ответ

0 голосов
/ 19 января 2019

см., Например, https://stats.stackexchange.com/questions/332428/regression-model-constant-causes-multicollinearity-warning-but-not-in-standardi/332597#332597

Statsmodels вычисляет номер условия матрицы проекта, и поэтому он чувствителен к масштабированию объясняющих переменных.
Основной интерес при вычислении номера условия таким образомдолжен указывать, есть ли возможные числовые проблемы с фактической структурной матрицей, а не столько как диагностический индикатор мультиколлинеарности.Statsmodels принимает предоставленную пользователем матрицу проектирования как заданную и не стандартизирует и не преобразует матрицу проектирования для улучшения числовой стабильности.

В этом примере нет мультиколлинеарности, но масштаб Impression намного больше константызакодировано как 1.

Кроме того, коэффициент регрессии очень мал, чтобы компенсировать большой масштаб объясняющей переменной.

Таким образом, числовая стабильность и интерпретация параметра будут улучшены путем масштабированияпеременная Impression, например, с использованием 100 000 в качестве единицы Impression.

...