Расчет стандартного отклонения образцов с бустреппингом в R - PullRequest
1 голос
/ 27 сентября 2011

Представьте себе: я отобрал 10000 человек и измерил их рост в см и нарисовал распределение следующим образом:

# Generate sample data
sampleSize = 10000
sampleData = round(rnorm(n=sampleSize, mean=175, sd=14))

# Draw histogram of sample
h = hist(sampleData, breaks=max(sampleData)-min(sampleData))

######################################################################
# Calculate the mean of the measurement
meanMeasure = mean(sampleData)
meanMeasure
abline(v=meanMeasure, col="red")

# Calculate the standard deviation of the measurement
sdMeasure = sd(sampleData)
sdMeasure
rect(
    xleft=meanMeasure-sdMeasure,
    ybottom=min(h$counts),
    xright=meanMeasure+sdMeasure,
    ytop=max(h$counts),
    col="#0000ff22"
)

Теперь я хочу оценить, насколько велико стандартное отклонение для каждого измеренного роста.Я подумал, что начальной загрузкой моего исходного набора данных будет хороший метод, то есть выборка размеров тела из моего исходного набора данных с заменой.

Это хороший метод?Как я могу выполнить этот анализ в R (например, стандартное отклонение для каждой высоты в загрузочном анализе с 1000 циклов)?

Ответы [ 3 ]

2 голосов
/ 28 сентября 2011

Если вы измеряете каждого индивидуума только один раз, невозможно получить стандартное отклонение «для каждого измеренного роста». Самозагрузка может использоваться только в том случае, если у вас есть несколько точек данных, для которых вы хотите получить оценку.

Для получения стандартного отклонения "для каждого измеренного роста" каждый рост должен измеряться более одного раза.

Если, однако, вы хотите получить предварительную оценку стандартного отклонения вашей общей выборки, тогда применимы два других ответа.

Кроме того, этот вопрос лучше подойдет для crossvalidated.com .

1 голос
/ 27 сентября 2011

Начальная загрузка обычно используется для расчета дисперсии оценки, в вашем случае - средней высоты выборки.Когда вы просто ищете разницу в высоте людей, вам не нужно делать загрузку.

Почему мы запускаем?Потому что для нашего одного образца у нас есть только одно среднее значение.Таким образом, нам нужно много выборок, чтобы получить много выборочных средств для расчета дисперсии этой оценки.Начальная загрузка - это способ получить много псевдосэмплов, когда у нас есть только один.

В вашем случае у нас уже есть много отдельных наблюдений за высотами, поэтому нам больше не нужно - мы можем просто рассчитать дисперсию непосредственно на основе наших "реальных" наблюдений.

1 голос
/ 27 сентября 2011

Нет необходимости использовать загрузчик для этой цели, когда размер вашей выборки слишком велик.Если вы хотите узнать степень вероятного отклонения стандартного отклонения в выборках, состоящих только из 100, 200 или, может быть, даже 500 особей, тогда начальная загрузка будет информативной.Но с 10 000 человек вариация стандартного отклонения при начальной загрузке будет очень и очень небольшой.

...