У меня есть набор данных, содержащий количество дефектных игрушек в пакетах для двух типов игрушек. Вот так:
import pandas as pd
df = pd.DataFrame({'toy_type': ['A', 'B', 'A', 'A', 'A', 'B', 'B'],
'num_of_defective': [3, 5, 6, 4, 1, 2, 1, 0] )
И мне нужно выяснить, гораздо ли чаще, чем 2 бракованных игрушки go в партии для игрушки А, чем для игрушки Б.
Я делаю это , но я не знаю, правда ли это, потому что это распределение может быть ненормальным:
from scipy.stats import ttest_ind
alpha = 0.05
ans = ttest_ind(df[(df['toy_type']=='A') & (df['num_of_defective']<2)]['num_of_defective'],
df[(df['toy_type']=='B') & (df['num_of_defective']<2)]['num_of_defective'],
equal_var = False)
if ans[1]<alpha:
print('Its true')
else:
print('Its false')