Я пытаюсь рассчитать коэффициент вариации инфляции для непрерывных объектов. Здесь cnt - моя целевая переменная, и рассматриваемая переменная зарегистрирована.
Зарегистрированная переменная имеет высокую корреляцию (0,90) с cnt. Я также добавил постоянное значение в свой тест VIF.
Мой вопрос: следует ли удалить зарегистрированную переменную из моего набора данных? Кроме того, каково допустимое пороговое значение VIF? Есть много источников, ссылающихся на разные пороговые значения vif, наиболее часто встречающееся значение - 10.
Вот мой код для Vif:
#Variation Inflation Factor
X = add_constant(data_num)
vif=pd.Series([variance_inflation_factor(X.values, i) for i in range(X.shape[1])], index=X.columns)
Вывод:
const 50.091502
casual 2.004372
registered 10.598306
cnt 13.641529
hum_100 1.179175
atemp_50 2.155207
windspeed_67 1.107981