У меня есть некоторые численные измерения для двух групп людей, и я хотел бы сравнить средние значения между этими двумя группами. Просто с помощью t-теста для этой цели, который дает мне доверительный интервал и р-значение. Теперь я хотел бы провести анализ bootstrap этих данных, чтобы почувствовать изменчивость значений CI и p.
Я использую R и пакет "boot". Данные хранятся в кадре данных «данные». Для вычисления статистики у меня есть эта функция:
calculate <- function(formula, data, indices) {
d <- data[indices,]
m <- t.test(formula, data=d)
return(c(m$conf.int, m$p.value))
}
Затем я запускаю bootstrap следующим образом:
results <- boot(data=data, statistic=calculate, R=1000, formula=y ~ x)
Затем я строю p-значения в «результатов» следующим образом :
hist(results$t[,3], breaks=32)
Гистограмма выглядит так, как показано ниже. Я понимаю, что распределение значений p искажено, поскольку значение p ограничено не меньше нуля. Но я не понимаю, почему пик распределения также равен нулю, независимо от того, сколько разрывов я показываю на гистограмме.
Любое понимание будет высоко оценено! ![Histogram of bootstrapped p-value distribution](https://i.stack.imgur.com/Y7kd7.png)