как понять таблицу непредвиденных обстоятельств хи-квадрат - PullRequest
0 голосов
/ 07 октября 2018

У меня есть несколько категориальных функций:

['Gender',
 'Married',
 'Dependents',
 'Education',
 'Self_Employed',
 'Property_Area']

from scipy.stats import chi2_contingency
chi2, p, dof, expected = chi2_contingency((pd.crosstab(df.Gender, df.Married).values))
print (f'Chi-square Statistic : {chi2} ,p-value: {p}')

вывод:

Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19

Как я могу узнать, являются ли функции независимыми друг от друга из этой статистики?

Я пытаюсь построить модель классификации, поэтому я просто хотел знать, полезны ли эти категориальные столбцы для прогнозирования моей целевой переменной.

1 Ответ

0 голосов
/ 08 октября 2018

Таблицы сопряженности используются в статистике для суммирования взаимосвязи между несколькими категориальными переменными.

В вашем примере таблица сопряженности между двумя переменными Genderи Married - это таблица Frequency этих переменных, представленная одновременно.

A критерий хи-квадрат , проведенный на таблице сопряженности, может проверить, может ли связь существует между переменными.Эти эффекты определяются как отношения между строками и столбцами.


scipy.stats.chi2_contingency вычисляет - по умолчанию - статистика хи-квадрат Пирсона.

Кроме того, нас интересует Sig(2-Tailed), который является значением p в вашем примере.

Значение p eдоказательства против нулевой гипотезы . меньше p-значение, сильное свидетельство того, что вы должны отклонить нулевую гипотезу.

И нулевую гипотезу в вашем случае зависимость наблюдаемых частот в таблице сопряженности.


Выбор значимого уровня - альфа как 5% ;ваше p-значение равно 4.502328957824834e-19 намного меньше, чем .05, что указывает на то, что строки и столбцы таблицы сопряженности независимы .Обычно это означает, что стоит интерпретировать ячейки в таблице непредвиденных обстоятельств.

В данном конкретном случае это означает, что Мужской или Женский (т. Е. Пол) не распределен аналогично поразличные уровни Семейное положение (т.е. женат, не женат).

Таким образом, брак может быть статусом одного пола больше, чем другого!


Обновление

В соответствии с вашим комментарием, я вижу, у вас есть некоторые сомнения по поводу этого теста.

Этот тест в основном говорит вам, если соотношение между переменными Значительно (т.е.может представлять население) или случайно !

Так что если у вас высокий уровень значимости (высокое значение p), это означает, что между переменными существует значительная зависимость!

Теперь, если Gender и Married являются функциями вашей модели, это может привести к переоснащению и избыточности функций.Затем вы можете выбрать один из них.

Но если Gender или Married является зависимой переменной (например, y), то хорошо, что они имеют существенные отношения.

Дополнительный бонус: иногда одна из функций становится временно зависимой переменной во время Импутация данных (если у вас пропущены значения).

...