Постановка задачи - Статистически доказать, что 5 групп одинаковы или различны
Я работаю над проблемой с размером набора данных ~ 600 000.
Есть 5 групп, скажем, [A, B, C, D, E] и соответствующие оклады с ~ 100 тыс. Наблюдений на группу.
df['Salary']
слегка перекос вправо.Я попробовал ANOVA и тест Kruskal.
Результаты ANOVA
Если я использую все данные - значение p указывает, что группы статистически различны (p
Если я использую 10K случайных выборок в каждой группе pзначение увеличивается до ~ 0,002333
Если я использую 1000 случайных выборок в каждой группе, значение р превышает 0,05 и имеет порядок ~ 0,5
Я не уверен, как оценивать эти результаты? Что делатьбудет ли размер выборки и какие другие методы мне следует рассмотреть
Среднее значение и SD для 5 групп ниже (когда я рассматриваю 100 000 случайных выборок для каждой группы:
Группа 1 - (12.134831460674159, 5,1823701530849995) * тысячу тридцать-один * * тысяча тридцать две * Группа 2 - (+11,64860907759883, 5,092876703946831)
Группа 3 - (11,660195118395315, 4,952100116921575) * +1035 * * 1 036 * Группа 4 - (+12,052747507535358, 5,091383288751849) * +1037 *
Группа 5 - (11.468062169943916, 4.996349965883181)
РЕЗУЛЬТАТЫ KRUSKAL
Когда размер выборки = 100
KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)
КогдаSAMPLразмер 10 000
KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)
Распределение средней заработной платы - Общая численность населения ~ 600 000