В R, как выполнить повторную выборку с использованием кластерной выборки с определенным количеством кластеров и наблюдений в каждом кластере для подготовки к начальной загрузке? - PullRequest
0 голосов
/ 29 ноября 2018

У меня есть данные по 100 домохозяйствам, которые были случайно отобраны из более крупного сообщества.Теперь я хотел бы провести повторную выборку 10 000 грабителей из 20 домохозяйств из первоначальной выборки из 100 домохозяйств с использованием различных методов кластерной выборки (т. Е. 10 кластеров из 2 домохозяйств, 5 кластеров из 4 домохозяйств).Каждый кластер будет состоять из случайно выбранного наблюдения и n наблюдений, следующих непосредственно за ним.Ex.Для 10 кластеров из 2 домохозяйств каждый кластер будет состоять из случайно выбранного домохозяйства и домохозяйства, которое непосредственно следует за ним в наборе данных.Для 5 кластеров из 4 домохозяйств каждый кластер будет состоять из случайно выбранного домохозяйства и 3 домохозяйств, которые сразу же следуют за ним в наборе данных.

Мне удалось добиться желаемого результата повторной выборки для 10 000 захватов из 20 домашних хозяйств, используя простую случайную выборку со следующим:

dat <- data.frame(hh_id = c(1:100), var = sample(1:200, 100, replace = T))
rs <- NULL
for(i in 1:10000){rs[i] = list(dat[sample(nrow(dat), 20, replace=TRUE),])}

Как бы я достиг того же результата, но случайно выбрав10 кластеров из 2 домохозяйств (т.е. всего 20 домохозяйств за захват) вместо простой случайной выборки.Я просмотрел пакеты infer, sample и resample, а также другие, и тщательно просмотрел другие публикации здесь, но, похоже, не могу найти подходящее решение.

В конечном счете, я сравню дисперсию каждого метода выборки из среднего значения 100 домохозяйств, чтобы найти баланс между точностью и эффективностью.Если есть ярлык для начальной загрузки всего этого напрямую, меня это тоже заинтересует.

...