Проверка взаимосвязи между двумя категориями типов данных столбца в python - PullRequest
0 голосов
/ 19 марта 2020

В моем Pandas DataFrame есть две категориальные переменные: одна target , которая имеет 2 уникальных значения , а другая - функция , которая имеет 300 уникальных значений теперь я хочу проверить взаимосвязь между двумя переменными, используя тест ChiSquare теперь тип данных двух столбцов - это объект , так как я могу выполните тест хи-квадрат или проверьте соотношение между двумя столбцами, которое равно - , если два столбца коррелированы или нет

1 Ответ

1 голос
/ 19 марта 2020

300 уникальных значений в переменной слишком много, но вы можете использовать следующие строки кода для проверки:

import pandas as pd
from scipy.stats import chi2_contingency

table = pd.crosstab(df['Feature_Var'],df['Target_Var'])
print(table)
stat, pvalue, dof, expected = chi2_contingency(table)
print('Chi-sq Test Statistics = %.3f \nP-Value = %.3f \nDegrees of Freedom = %.3f' % (stat, pvalue, dof))
...