Надежный независимый T-тест - PullRequest
3 голосов
/ 14 апреля 2020

Я впервые задаю вопрос, поэтому прошу прощения за любые проблемы с форматированием или за все, что затрудняет ответ. Пожалуйста, дайте мне знать, что мне нужно добавить, чтобы иметь возможность ответить на вопрос.

Я пытаюсь сравнить различия между двумя неравными размерами группы (одна ~ 97, другая ~ 714). Причиной такого большого расхождения является то, что я смотрю на программу, выполненную одним классом, чтобы увидеть, значительно ли она отличается от того, что происходило в предыдущих классах. Недавно я читал об устойчивой статистике и решил использовать yuen bootstrap в R-Studio из пакета WRS2 для более достоверного сравнения, особенно с разницей в размере выборки.

Моя формула

yuenbt(DataExample$PT500 ~ DataExample3$ClassPT500, tr = 0.2, nboot = 599, side = TRUE)

и он возвращает

Call:
yuenbt(formula = DataExample$PT500 ~ DataExample$ClassPT500,
tr = 0.2, nboot = 599, side = TRUE)

Test statistic: NA (df = NA), p-value = 0

Trimmed mean difference: -65
95 percent confidence interval:
NA NA

Возвращение NA для других переменных, которые я тоже опробовал, или в некоторых случаях доверительный интервал будет содержать INF. Любые идеи, почему это происходит (такая большая разница в размере выборки?) И предложения о том, каким будет следующий лучший шаг, будут высоко оценены.

Вот пример данных:

structure(list(PrePT500 = c(74, 105, 121, 128), PostPT500 = c(191, 
264, 327, 314), PT500 = c(117, 159, 206, 186), PrePullups = c(0, 
NA, NA, 2), PostPullups = c(3, NA, NA, 3), Pullups = c(3, NA, 
NA, 1), PreSitups = c(46, 40, 25, 33), PostSitups = c(41, 61, 
39, 49), Situps = c(-5, 21, 14, 16), PreMC = c(8, 16, 29, 19), 
    PostMC = c(41, 45, 60, 60), MC = c(33, 29, 31, 41), PrePushups = c(20, 
    16, 28, 30), PostPushups = c(40, 47, 50, 50), Pushups = c(20, 
    31, 22, 20), Pre1.5 = c(1048, 917, 902, 905), Post1.5 = c(846, 
    748, 696, 760), X1.5 = c(-202, -169, -206, -145), Pre220 = c(43, 
    50, 41, 45), Post220 = c(39, 40, 32, 34), X220 = c(-4, -10, 
    -9, -11), PreAgility = c(20.96, NA, 21.1, 19.88), PostAgility = c(19.69, 
    NA, 18.8, 20.79), Agility = c(-1.27, NA, -2.3, 0.91), PreBD = c(6.17, 
    7.82, 5.08, 7), PostBD = c(5, 4.87, 4.68, 6.2), BD = c(-1.17, 
    -2.95, -0.4, -0.8), PreCL = c(7.05, 13.6, 14.4, 8.8), PostCL = c(8.1, 
    8.9, 8.27, 7.6), CL = c(1.05, -4.7, -6.13, -1.2), PreSW = c(10.2, 
    NA, 20.34, 8), PostSW = c(11.4, NA, 9.3, 7.4), SW = c(1.2, 
    NA, -11.04, -0.6), Pre500 = c(115, 128, 107, 114), Post500 = c(105, 
    112, 93, 99), X500 = c(-10, -16, -14, -15), PreTotal = c(446, 
    91, 255, NA), PostTotal = c(493, 439, 503, NA), Total = c(47, 
    348, 248, NA), ClassPrePT500 = c(338, 213, 215, 243), ClassPostPT500 = c(430, 
    396, 333, 314), ClassPT500 = c(92, 183, 118, 71), ClassPrePullups = c(6, 
    5, 2, 0), ClassPostPullups = c(13, 7, 15, 0), ClassPullups = c(7, 
    2, 13, 0), ClassPreSitups = c(59, 42, 45, 53), ClassPostSitups = c(75, 
    70, 51, 53), ClassSitups = c(16, 28, 6, 0), ClassPreMC = c(60, 
    43, 31, 48), ClassPostMC = c(60, 60, 31, 60), ClassMC = c(0, 
    17, 0, 12), ClassPrePushups = c(50, 37, 26, 30), ClassPostPushups = c(50, 
    50, 47, 34), ClassPushups = c(0, 13, 21, 4), ClassPre1.5 = c(803, 
    810, 803, 741), ClassPost1.5 = c(700, 690, 664, 661), Class1.5 = c(-103, 
    -120, -139, -80), ClassPre220 = c(32, 41, 31, 40), ClassPost220 = c(31, 
    33, 30, 37), Class220 = c(-1, -8, -1, -3), ClassPreAgility = c(19, 
    23, 18, 22.1), ClassPostAgility = c(16.4, 18, 16.5, 20.3), 
    ClassAgility = c(-2.6, -5, -1.5, -1.8), ClassPreBD = c(6.4, 
    8.5, 5.8, 11.2), ClassPostBD = c(5.3, 5.8, 5.5, 7.5), ClassBD = c(-1.1, 
    -2.7, -0.3, -3.7), ClassPreCL = c(7.8, 9.3, 7.3, 9.6), ClassPostCL = c(7.6, 
    7.4, 7.4, 9.2), ClassCL = c(-0.2, -1.9, 0.100000000000001, 
    -0.4), ClassPreSW = c(8.5, 8.4, 7.7, NA), ClassPostSW = c(7.8, 
    8.1, 7.6, 8), ClassSW = c(-0.7, -0.300000000000001, -0.100000000000001, 
    NA), ClassPre500 = c(102, 104, 100, 108), ClassPost500 = c(94, 
    88, 98, 101), Class500 = c(-8, -16, -2, -7), ClassPreTotal = c(495, 
    418, 528, 264), ClassPostTotal = c(561, 539, 562, 482), ClassTotal = c(66, 
    121, 34, 218)), row.names = c(NA, -4L), class = c("tbl_df", 
"tbl", "data.frame"))

Заранее благодарю за любую помощь.

...