Apache HBase - вычислить коэффициент корреляции для большой, широкой матрицы - PullRequest
0 голосов
/ 09 июля 2019

У меня большая, широкая таблица, хранящаяся в Apache Hbase для случайных поисков. Таблица представляет собой матрицу целых чисел с ~ 3 миллионами строк и 50000 столбцов. Я сохранил матрицу в Hbase как в высоком, тонком формате (где ключ строки - это строка + имя столбца), так и в «широком» формате (где у нас 50 000 столбцов для каждой строки).

То, что я хочу сделать, - это вычислить коэффициент корреляции для одной строки против каждой другой строки менее чем за 2 секунды и получить отсортированный по рангу список коэффициентов. Это означает ~ 3 миллиона различных расчетов.

Hbase не обязательно создан для аналитики, но есть ли способ выполнить этот расчет с Hbase, учитывая мои требования к производительности? Или я должен попробовать опцию Map-Reduce, такую ​​как Apache Hive?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...