Question

У меня большая, широкая таблица, хранящаяся в Apache Hbase для случайных поисков. Таблица представляет собой матрицу целых чисел с ~ 3 миллионами строк и 50000 столбцов. Я сохранил матрицу в Hbase как в высоком, тонком формате (где ключ строки - это строка + имя столбца), так и в «широком» формате (где у нас 50 000 столбцов для каждой строки).

То, что я хочу сделать, - это вычислить коэффициент корреляции для одной строки против каждой другой строки менее чем за 2 секунды и получить отсортированный по рангу список коэффициентов. Это означает ~ 3 миллиона различных расчетов.

Hbase не обязательно создан для аналитики, но есть ли способ выполнить этот расчет с Hbase, учитывая мои требования к производительности? Или я должен попробовать опцию Map-Reduce, такую как Apache Hive?

Apache HBase - вычислить коэффициент корреляции для большой, широкой матрицы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache HBase - вычислить коэффициент корреляции для большой, широкой матрицы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы