Таблицы сопряженности используются в статистике для суммирования взаимосвязи между несколькими категориальными переменными.
В вашем примере таблица сопряженности между двумя переменными Gender
и Married
- это таблица Frequency этих переменных, представленная одновременно.
A критерий хи-квадрат , проведенный на таблице сопряженности, может проверить, может ли связь существует между переменными.Эти эффекты определяются как отношения между строками и столбцами.
scipy.stats.chi2_contingency вычисляет - по умолчанию - статистика хи-квадрат Пирсона.
Кроме того, нас интересует Sig(2-Tailed)
, который является значением p в вашем примере.
Значение p eдоказательства против нулевой гипотезы . меньше p-значение, сильное свидетельство того, что вы должны отклонить нулевую гипотезу.
И нулевую гипотезу в вашем случае зависимость наблюдаемых частот в таблице сопряженности.
Выбор значимого уровня - альфа как 5% ;ваше p-значение равно 4.502328957824834e-19
намного меньше, чем .05
, что указывает на то, что строки и столбцы таблицы сопряженности независимы .Обычно это означает, что стоит интерпретировать ячейки в таблице непредвиденных обстоятельств.
В данном конкретном случае это означает, что Мужской или Женский (т. Е. Пол) не распределен аналогично поразличные уровни Семейное положение (т.е. женат, не женат).
Таким образом, брак может быть статусом одного пола больше, чем другого!
Обновление
В соответствии с вашим комментарием, я вижу, у вас есть некоторые сомнения по поводу этого теста.
Этот тест в основном говорит вам, если соотношение между переменными Значительно (т.е.может представлять население) или случайно !
Так что если у вас высокий уровень значимости (высокое значение p), это означает, что между переменными существует значительная зависимость!
Теперь, если Gender
и Married
являются функциями вашей модели, это может привести к переоснащению и избыточности функций.Затем вы можете выбрать один из них.
Но если Gender
или Married
является зависимой переменной (например, y
), то хорошо, что они имеют существенные отношения.
Дополнительный бонус: иногда одна из функций становится временно зависимой переменной во время Импутация данных (если у вас пропущены значения).