Я бы хотел применить критерий хи-квадрат scipy.stats.chisquare
. И общее количество наблюдений отличается в моих группах.
import pandas as pd
data={'expected':[20,13,18,21,21,29,45,37,35,32,53,38,25,21,50,62],
'observed':[19,10,15,14,15,25,25,20,26,38,50,36,30,28,59,49]}
data=pd.DataFrame(data)
print(data.expected.sum())
print(data.observed.sum())
Чтобы игнорировать это неверно - верно?
Требуется ли поведение по умолчанию scipy.stats.chisquare
это во внимание? Я проверил ручкой и бумагой, и похоже, что нет. Есть ли параметр для этого?
from scipy.stats import chisquare
# incorrect since the number of observations is unequal
chisquare(f_obs=data.observed, f_exp=data.expected)
Когда я выполняю ручную регулировку, я получаю немного другой результат.
# adjust actual number of observations
data['obs_prop']=data['observed'].apply(lambda x: x/data['observed'].sum())
data['observed_new']=data['obs_prop']*data['expected'].sum()
# proper way
chisquare(f_obs=data.observed_new, f_exp=data.expected)
Пожалуйста, исправьте меня, если я ошибаюсь в какой-то момент. Спасибо.
ps: я пометил R для дополнительной статистической экспертизы