Другим жизнеспособным вариантом является начальная загрузка.
Когда вы bootstrap, вы берете много случайных выборок из вашей исходной выборки с заменой (это означает, что отдельные наблюдения из вашей выборки могут появляться более одного раза в некоторых ваших bootstrap образцов), а затем используйте bootstrap образцов для оценки вашей статистики c интереса. Самое замечательное в bootstrap заключается в том, что вы можете использовать его для оценки доверительного интервала практически любой статистики c, представляющей интерес, будь то среднее значение, медиана, корреляция, наклон в регрессионной модели смешанных эффектов и т. Д. c ...
Чтобы реализовать его в R с помощью tidyverse
, вы можете сделать следующее:
# Write a function to get your statistic of interest on a randomly drawn sample
# (i.e. median in your case) with replacement
get_median <- function(x) {
x_sample <- sample(x, size = length(x), replace = TRUE)
median(x)
}
# After that you iterate your function many times (e.g. 1000 times) using purrr
bootstrapped_medians <- purrr::map_dbl(1:1000, ~ get_medians(x = iris$Sepal.Width))
# Now you can use the vector of bootstrapped statistics to get the desired summary
# e.g. 95% confidence interval
quantile(bootstrapped_medians, c(0.025, 0.975))