Чи-квадрат тест на независимость с одним столбцом данных в качестве целого числа, а другой в качестве объекта? - PullRequest
0 голосов
/ 17 мая 2019

Я пытаюсь выполнить проверку гипотезы для независимости в python, но один столбец данных (финансы) имеет тип данных float, а другой столбец (пол) имеет тип данных объекта.

Я создал следующую гипотезу: Ho: финансы не зависят от пола Ha: финансы не зависят от пола

Я пытался напрямую использовать входные данные, но получаю следующую ошибку: "не удалось преобразовать строку в число с плавающей точкой:" female ""

import pandas      as pd
import numpy       as np
import scipy.stats as stats

test = np.array(df['Gender'],df['Finances'])
chi_sq_Stat, p_value, deg_freedom, exp_freq = stats.chi2_contingency(test)

print('Chi-square statistic %3.5f P value %1.6f Degrees of freedom %d' %(chi_sq_Stat, p_value,deg_freedom))

Я ожидаю, что некоторое значение P подтвердит мою гипотезу.

Я приложил изображение набора данных

dataset

1 Ответ

0 голосов
/ 17 мая 2019

Попробуйте отобразить пол, который является номинальной переменной, в фиксированный набор чисел, например:

gender_mapping = {"male":1 ,"female":0}
df.Gender = df.Gender.map(gender_mapping)
df.head()
Gender  Finances
0   1   1
1   0   2
2   1   3
3   0   2
4   1   3

...