Ловушка фиктивной переменной и удаление одного столбца - PullRequest
0 голосов
/ 07 мая 2020

Может ли кто-нибудь подробно объяснить мне, что имеется в виду под фиктивной переменной-ловушкой? И почему мы хотим удалить один столбец, чтобы избежать этой ловушки? Пожалуйста, дайте мне несколько ссылок или объясните это. Я не понимаю этот процесс.

1 Ответ

0 голосов
/ 07 мая 2020

В регрессионном анализе часто говорят о проблеме мультиколинейности, с которой вы, возможно, уже знакомы. Ловушка фиктивной переменной - это просто идеальная колинеарность между двумя или более переменными. Это может возникнуть, если для одной двоичной переменной включены две фиктивные переменные; Представьте, что у вас есть переменная x, которая равна 1, когда что-то равно True. Если вы включите x вместе с другой переменной z, которая будет противоположностью x (т.е. 1, когда это то же самое, False), в вашей регрессионной модели у вас будет два совершенно отрицательно коррелированные переменные.

Вот простая демонстрация. Допустим, ваш x - это один столбец со значениями True/False в кадре данных pandas. Посмотрите, что происходит, когда вы используете pd.get_dummies(df.x) ниже. Два создаваемых манекена зеркально отражают друг друга, поэтому один из них является избыточным. Проще говоря, вам нужен только один из них, поскольку вы всегда можете угадать значение другого на основе того, который у вас есть.

import pandas as pd

df = pd.DataFrame({'x': [True, False]})

pd.get_dummies(df.x)
    False   True
0   0       1
1   1       0

То же самое применимо, если у вас есть категориальная переменная, которая может принимать более двух значений. Бинарный или нет, всегда есть «базовый сценарий», который может быть определен вариацией в другом случае (ах). Таким образом, этот «базовый сценарий» является избыточным и внесет в модель идеальную коллинеарность только в том случае, если он включен. Короткий ответ заключается в том, что если среди ваших объясняющих переменных есть несовершенная мультиколинейность, ваши оценочные коэффициенты могут быть искажены / смещены. Если существует идеальная мультиколинейность (как в случае ловушки фиктивной переменной), вы вообще не можете оценить свою модель; подумайте об этом так: если у вас есть переменная, которая может быть прекрасно объяснена другой переменной, это означает, что ваши образцы данных включают ценную информацию только об одной, а не двух, действительно уникальных переменных. Поэтому было бы невозможно получить две отдельные оценки коэффициентов для одной и той же переменной.

Дополнительная литература
Многолинейность
Ловушка для фиктивной переменной

...