У меня большая, широкая таблица, хранящаяся в Apache Hbase для случайных поисков. Таблица представляет собой матрицу целых чисел с ~ 3 миллионами строк и 50000 столбцов. Я сохранил матрицу в Hbase как в высоком, тонком формате (где ключ строки - это строка + имя столбца), так и в «широком» формате (где у нас 50 000 столбцов для каждой строки).
То, что я хочу сделать, - это вычислить коэффициент корреляции для одной строки против каждой другой строки менее чем за 2 секунды и получить отсортированный по рангу список коэффициентов. Это означает ~ 3 миллиона различных расчетов.
Hbase не обязательно создан для аналитики, но есть ли способ выполнить этот расчет с Hbase, учитывая мои требования к производительности? Или я должен попробовать опцию Map-Reduce, такую как Apache Hive?