Статистический анализ логов сервера - правильность экстраполяции - PullRequest
1 голос
/ 28 ноября 2008

У нас был сбой интернет-провайдера в течение примерно 10 минут один день, что, к сожалению, произошло во время проведенного экзамена, который был написан из разных мест.

К сожалению, это привело к потере данных обратной передачи для текущей страницы кандидатов.

Я могу восстановить поток событий из журнала сервера. Однако из 317 кандидатов 175 использовали локальный прокси-сервер, а это значит, что все они пришли с одного и того же IP. Я проанализировал данные из оставшихся 142 (45%) и дал несколько хороших данных о том, что с ними произошло.

Вопрос: Насколько правильно умножить все мои числа на 317/142, чтобы получить вероятные результаты для всего набора? Какой была бы моя область (не) определенности?

Пожалуйста, без догадок. Мне нужен кто-то, кто не заснул в классе статистики, чтобы ответить.

РЕДАКТИРОВАТЬ: по номерам я ссылался на количество пострадавших лиц. Например, 5/142 показали доказательства сбоя браузера во время сеанса. Насколько корректна экстраполяция 11/317 при сбое браузера?

1 Ответ

2 голосов
/ 29 ноября 2008

Я не уверен точно, о каких измерениях мы говорим, но сейчас давайте предположим, что вы хотите что-то вроде среднего балла. Никакой корректировки не требуется для оценки среднего балла населения (317 кандидатов). Просто используйте среднее значение выборки (142, данные которых вы проанализировали).

Чтобы определить область неопределенности, вы можете воспользоваться формулой, приведенной в справочнике по статистике NIST . Сначала вы должны решить, насколько неуверенным вы готовы быть. Предположим, что вы хотите 95% уверенности в том, что истинное среднее значение находится в пределах интервала. Тогда доверительный интервал для истинного среднего значения населения будет:

(средняя выборка) +/- 1,960 * (стандартное отклонение выборки) / кв.м (размер выборки)

Есть и другие исправления, которые вы можете внести, чтобы получить кредит для большой выборки по отношению к населению. Они сузят доверительный интервал примерно на 1/4, но есть много предположений, которые приведенный выше расчет делает уже менее консервативными. Одно из предположений состоит в том, что оценки распределены приблизительно нормально. Другое предположение состоит в том, что выборка является репрезентативной для населения. Вы упомянули, что все отсутствующие данные получены от кандидатов, использующих один и тот же прокси. Подмножество населения, использовавшего этот прокси, может сильно отличаться от остальных.

РЕДАКТИРОВАТЬ: так как мы говорим о пропорции выборки с атрибутом, например, «сбой браузера», все немного по-другому. Нам необходимо использовать доверительный интервал для пропорции и преобразовать его обратно в число успехов путем умножения на численность населения. Это означает, что наша наиболее точная оценка количества сбойных браузеров, как вы и предлагали, составляет 5 * 317/142 ~ = 11.

Если мы еще раз проигнорируем тот факт, что наша выборка составляет почти половину населения, мы можем использовать доверительный интервал Вильсона в пропорции . калькулятор доступен онлайн для обработки формулы для вас. Выходные данные из калькулятора и формулы верхний и нижний пределы для доли населения. Чтобы получить диапазон для числа сбоев, просто умножьте верхний и нижний пределы (размер популяции - размер выборки) и добавьте обратно количество сбоев в выборке. Хотя мы могли бы просто умножить на численность населения, чтобы получить интервал, это игнорировало бы то, что мы уже знаем о нашей выборке.

Использование описанной выше процедуры дает 95% C.I. от 7,6 до 19,0 для общего числа сбоев браузеров в населении 317, на основе 5 сбоев в 142 точках выборки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...