Реализация алгоритма MinMax в парадигме map-Reduce - PullRequest
0 голосов
/ 13 февраля 2019

У меня есть некоторые данные в таблицах Hbase (несколько миллиардов).Я должен обработать их, чтобы оценить сохраненные документы.Каковы возможные алгоритмы, которые могут быть реализованы и применены в парадигме mapreduce.

Я попытался развернуть алгоритм MinMax, но из-за его требования все данные перемещаются на один узел в фазе редуктора (чтобы найти минимальное и максимальное значение).По этой причине считывается предельное количество служебных данных GC, которое было вполне ожидаемым, поскольку один узел не мог иметь столько памяти для обработки всех данных за один раз.

Есть ли какая-либо другая опция для ранжирования документов hbase в парадигме mapreduce?

...