Question

Я хочу расширить существующий алгоритм кластеризации, чтобы справиться с очень большими наборами данных, и переработал его таким образом, чтобы он теперь можно было вычислять с разделами данных, что открывает возможности для параллельной обработки. Я смотрел на Hadoop и Pig и решил, что хорошим практическим местом для начала было вычисление основных статистических данных по моим данным, то есть среднее арифметическое и дисперсия.

Я уже некоторое время гуглю, но, может быть, я не использую правильные ключевые слова, и я не нашел ничего, что могло бы послужить хорошим примером для такого рода расчетов, поэтому я подумал, что могу спросить здесь.

Может ли кто-нибудь указать мне несколько хороших примеров того, как вычислять среднее и дисперсию с помощью hadoop, и / или предоставить пример кода.

Спасибо

cwensel · Answer 1 · 31 марта 2010

Вы можете перепроверить и посмотреть, может ли ваш код кластеризации попасть в каскадирование. Довольно просто добавлять новые функции, делать объединения и т. Д. С вашими существующими библиотеками Java.

http://www.cascading.org/

И если вы в Clojure, вы можете посмотреть эти проекты на github: http://github.com/clj-sys

Это многоуровневые новые алгоритмы, реализованные в Clojure поверх Cascading (который, в свою очередь, наслоен на Hadoop MapReduce).

Marcelo Cantos · Answer 2 · 31 марта 2010

Pig latin имеет связанную библиотеку многократно используемого кода PiggyBank, которая имеет множество удобных функций. К сожалению, в прошлый раз, когда я проверял, не было различий, но, возможно, это изменилось. Если ничего другого, он может предоставить примеры, чтобы вы начали свою реализацию.

Следует отметить, что дисперсию трудно реализовать стабильно для огромных массивов данных, поэтому будьте осторожны!

Примеры простого расчета статистики с помощью hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Примеры простого расчета статистики с помощью hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы