Почему распределение p-значений достигает пика около нуля при выполнении t-теста с начальной загрузкой 1000x для моих данных? - PullRequest
0 голосов
/ 05 марта 2020

У меня есть некоторые численные измерения для двух групп людей, и я хотел бы сравнить средние значения между этими двумя группами. Просто с помощью t-теста для этой цели, который дает мне доверительный интервал и р-значение. Теперь я хотел бы провести анализ bootstrap этих данных, чтобы почувствовать изменчивость значений CI и p.

Я использую R и пакет "boot". Данные хранятся в кадре данных «данные». Для вычисления статистики у меня есть эта функция:

calculate <- function(formula, data, indices) {
    d <- data[indices,]
    m <- t.test(formula, data=d)
    return(c(m$conf.int, m$p.value))
}

Затем я запускаю bootstrap следующим образом:

results <- boot(data=data, statistic=calculate, R=1000, formula=y ~ x)

Затем я строю p-значения в «результатов» следующим образом :

hist(results$t[,3], breaks=32)

Гистограмма выглядит так, как показано ниже. Я понимаю, что распределение значений p искажено, поскольку значение p ограничено не меньше нуля. Но я не понимаю, почему пик распределения также равен нулю, независимо от того, сколько разрывов я показываю на гистограмме.

Любое понимание будет высоко оценено! Histogram of bootstrapped p-value distribution

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...