Сколько стоит «большой» набор данных? - PullRequest
0 голосов
/ 24 мая 2009

Предполагается бесконечное хранилище, где размер / объем / физика (метрики, гигабайты / террабайты) не будут иметь значения только для количества элементов и их меток. Статистическая структура должна появиться уже при 30 подмножествах, но вы можете согласиться, что менее 1000 подмножеств слишком мало для тестирования, и по крайней мере 10000 различных подмножеств / «элементов», «записей» / сущностей - это «большой набор данных». Или больше? Спасибо

1 Ответ

3 голосов
/ 24 мая 2009

Я не уверен, что понимаю ваш вопрос, но звучит так, будто вы пытаетесь спросить, сколько элементов набора данных вам нужно выбрать, чтобы обеспечить определенную степень точности (30 - это магическое число из Центральная предельная теорема, которая входит в игру часто).

В этом случае необходимый объем выборки зависит от уровня достоверности и доверительного интервала. Если вы хотите уровень достоверности 95% и доверительный интервал 5% (т.е. вы хотите быть на 95% уверены, что доля, которую вы определяете по выборке, находится в пределах 5% от доли в полном наборе данных), вам в конечном итоге потребуется размер выборки не более 385 элементов. Чем выше уровень достоверности и чем меньше доверительный интервал, который вы хотите сгенерировать, тем больше размер выборки, который вам нужен.

Вот хорошее обсуждение математики определения размера выборки и удобный калькулятор размера выборки , если вы просто хотите запустить числа.

...