Apache HBase читает медленно с тысячами столбцов - PullRequest
0 голосов
/ 25 июня 2019

У меня есть кластер Apache Hbase, работающий в AWS EMR. База данных состоит из одной таблицы со строками для строк и столбцов и целыми числами в значениях. Таблица широкая, 50 000 столбцов и около 75 000 строк. Все столбцы принадлежат одному семейству столбцов.

rowkey  col1 col2 col3 ... col50000
rowkey1  0    255  456
rowkey2  ..   ...
rowkey3

Единственные операции, которые я хочу выполнить, - это выбрать подмножества этой матрицы - выбрать определенные строки и столбцы и вернуть их. Однако даже выбор одной строки невероятно медленен - ​​для возврата требуется около 10 секунд. Документация и тематические исследования обещают латентную задержку в миллисекундах - что я делаю не так?

...