Параметрический или непараметрический групповой тест для 5 различных групп - PullRequest
0 голосов
/ 12 февраля 2019

Постановка задачи - Статистически доказать, что 5 групп одинаковы или различны

  • Я работаю над проблемой с размером набора данных ~ 600 000.

  • Есть 5 групп, скажем, [A, B, C, D, E] и соответствующие оклады с ~ 100 тыс. Наблюдений на группу.

df['Salary'] слегка перекос вправо.Я попробовал ANOVA и тест Kruskal.

Результаты ANOVA

Если я использую все данные - значение p указывает, что группы статистически различны (p

Если я использую 10K случайных выборок в каждой группе pзначение увеличивается до ~ 0,002333

Если я использую 1000 случайных выборок в каждой группе, значение р превышает 0,05 и имеет порядок ~ 0,5

Я не уверен, как оценивать эти результаты? Что делатьбудет ли размер выборки и какие другие методы мне следует рассмотреть

Среднее значение и SD для 5 групп ниже (когда я рассматриваю 100 000 случайных выборок для каждой группы:

Группа 1 - (12.134831460674159, 5,1823701530849995) * тысячу тридцать-один * * тысяча тридцать две * Группа 2 - (+11,64860907759883, 5,092876703946831)

Группа 3 - (11,660195118395315, 4,952100116921575) * +1035 * * 1 036 * Группа 4 - (+12,052747507535358, 5,091383288751849) * +1037 *

Группа 5 - (11.468062169943916, 4.996349965883181)

РЕЗУЛЬТАТЫ KRUSKAL

Когда размер выборки = 100

KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)

КогдаSAMPLразмер 10 000

KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)

Распределение средней заработной платы - Общая численность населения ~ 600 000

1 Ответ

0 голосов
/ 12 февраля 2019

У вас огромный размер выборки, 100 КБ для каждой группы.С таким количеством точек данных вы почти гарантированно найдете статистически значимое различие / результат.Эти статистические тесты не были рассчитаны на такие большие выборки.

Вы должны использовать все свои данные, чтобы получить наилучшие возможные оценки, однако вам придется использовать знания предметной области, чтобы решить, является ли разница практическизначительный .Также вы должны посмотреть на доверительные интервалы, чтобы определить эффект.

Кроме того, ANOVA делает предположение о нормальном распределении остатков , а не данных.

...