Этот вопрос не о данных выборки, я знаю о sample_n, но этот вопрос касается имитации данных из фрейма данных для сравнения их среднего значения с фактическим и фактическим моделированием (с использованием суммирования group_by).
Я рассчитал фактическую разницу в среднем между использованием ниже
df %>%
group_by(allfour) %>%
summarise(hs_completion=mean(hsgrad),
count=n())
Однако я изо всех сил пытаюсь нарисовать 100 симуляций из каждой группы, а затем разделить каждый вектор на соответствующий размер группы, чтобы превратить их в смоделированные выпускные курсы и рассчитать разницу в этих показателях между двумя группами. После этого мне нужно нарисовать гистограмму этих смоделированных различий и добавить к этой гистограмме красную вертикальную линию со значением разности средних, рассчитанным по наблюдаемым данным.
Я знаю tidyverse & ggplot, поэтому Построение графиков - это не вопрос, как мне сделать 100 симуляций, когда записи ограничены.
Пример кадра данных df, как показано ниже:
structure(list(hsgrad = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 0L, 1L, 1L, 0L, 0L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L,
0L, 1L, 1L, 0L, 0L, 0L, 0L, 1L, 1L, 0L, 1L, 1L, 1L, 0L, 0L, 0L,
1L, 1L, 0L, 0L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L,
0L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 0L, 1L, 0L, 0L,
1L, 1L, 0L, 1L, 1L, 1L, 0L, 0L, 0L, 0L, 1L, 1L, 0L, 0L, 1L, 1L,
1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 1L, 0L, 0L), allfour = structure(c(1L,
2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L,
1L, 1L, 1L, 1L, 1L, 2L, 2L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 2L, 1L), .Label = c("0", "1"), class = "factor")), row.names = c(NA,
100L), class = "data.frame")