Я хочу расширить существующий алгоритм кластеризации, чтобы справиться с очень большими наборами данных, и переработал его таким образом, чтобы он теперь можно было вычислять с разделами данных, что открывает возможности для параллельной обработки. Я смотрел на Hadoop и Pig и решил, что хорошим практическим местом для начала было вычисление основных статистических данных по моим данным, то есть среднее арифметическое и дисперсия.
Я уже некоторое время гуглю, но, может быть, я не использую правильные ключевые слова, и я не нашел ничего, что могло бы послужить хорошим примером для такого рода расчетов, поэтому я подумал, что могу спросить здесь.
Может ли кто-нибудь указать мне несколько хороших примеров того, как вычислять среднее и дисперсию с помощью hadoop, и / или предоставить пример кода.
Спасибо