асимметрия и куртоз
Он-лайн алгоритмы для асимметрии и куртоза (вдоль линий дисперсии) см. На той же вики-странице здесь параллельные алгоритмы для статистики более высокого момента.
Медиана
Медиана жесткая без отсортированных данных. Если вы знаете, сколько точек данных у вас есть, теоретически вам нужно только частично отсортировать, например, используя алгоритм выбора . Однако это не слишком помогает с миллиардами ценностей. Я бы предложил использовать подсчет частоты, см. Следующий раздел.
Медиана и режим с частотой отсчетов
Если бы это были целые числа, я бы посчитал
частоты , вероятно, обрезая самые высокие и самые низкие значения сверх некоторого значения, где я уверен, что это больше не актуально. Для чисел с плавающей запятой (или слишком большого числа целых чисел) я, вероятно, создал бы интервалы / интервалы, а затем использовал бы тот же подход, что и для целых чисел. (Приблизительный) режим и расчет медианы, чем становится легко, на основе таблицы частот.
нормально распределенные случайные величины
Если оно нормально распределено, я бы использовал выборку населения среднее , дисперсия , асимметрия и эксцесс в качестве максимальной вероятности Оценки для небольшого подмножества. (Он-лайн) алгоритмы для расчета тех, вы уже сейчас. Например. прочитайте пару сотен тысяч или миллионов точек данных, пока ваша ошибка оценки не станет достаточно маленькой. Просто убедитесь, что вы выбираете случайным образом из своего набора (например, что вы не вносите смещение, выбирая первые 100 000 значений). Тот же самый подход может также использоваться для оценки режима и медианы для нормального случая (для обоих выборка означает среднее значение).
Дополнительные комментарии
Все вышеперечисленные алгоритмы могут выполняться параллельно (включая множество алгоритмов сортировки и выбора, например, QuickSort и QuickSelect), если это помогает.
Я всегда предполагал (за исключением раздела о нормальном распределении), что мы говорим о выборочных моментах, медиане и моде, а не оценках для теоретических моментов при известном распределении.
Как правило, выборка данных (т. Е. Только просмотр подмножества) должна быть довольно успешной с учетом объема данных, если все наблюдения являются реализациями одной и той же случайной величины (имеют одинаковое распределение) и моментов , мода и медиана на самом деле существуют для этого распределения. Последнее предостережение не безобидно. Например, среднее (и все более высокие моменты) для распределения Коши не существует. В этом случае среднее значение выборки «небольшого» подмножества может быть существенно отличным от среднего значения выборки для всей выборки.