Примеры простого расчета статистики с помощью hadoop - PullRequest
2 голосов
/ 31 марта 2010

Я хочу расширить существующий алгоритм кластеризации, чтобы справиться с очень большими наборами данных, и переработал его таким образом, чтобы он теперь можно было вычислять с разделами данных, что открывает возможности для параллельной обработки. Я смотрел на Hadoop и Pig и решил, что хорошим практическим местом для начала было вычисление основных статистических данных по моим данным, то есть среднее арифметическое и дисперсия.

Я уже некоторое время гуглю, но, может быть, я не использую правильные ключевые слова, и я не нашел ничего, что могло бы послужить хорошим примером для такого рода расчетов, поэтому я подумал, что могу спросить здесь.

Может ли кто-нибудь указать мне несколько хороших примеров того, как вычислять среднее и дисперсию с помощью hadoop, и / или предоставить пример кода.

Спасибо

Ответы [ 2 ]

1 голос
/ 31 марта 2010

Вы можете перепроверить и посмотреть, может ли ваш код кластеризации попасть в каскадирование. Довольно просто добавлять новые функции, делать объединения и т. Д. С вашими существующими библиотеками Java.

http://www.cascading.org/

И если вы в Clojure, вы можете посмотреть эти проекты на github: http://github.com/clj-sys

Это многоуровневые новые алгоритмы, реализованные в Clojure поверх Cascading (который, в свою очередь, наслоен на Hadoop MapReduce).

1 голос
/ 31 марта 2010

Pig latin имеет связанную библиотеку многократно используемого кода PiggyBank, которая имеет множество удобных функций. К сожалению, в прошлый раз, когда я проверял, не было различий, но, возможно, это изменилось. Если ничего другого, он может предоставить примеры, чтобы вы начали свою реализацию.

Следует отметить, что дисперсию трудно реализовать стабильно для огромных массивов данных, поэтому будьте осторожны!

...