Как загрузить CSV (более 15 000 столбцов) в экземпляр Apache Hbase - PullRequest
0 голосов
/ 29 мая 2019

У меня есть файл CSV, представляющий большую матрицу, которую я хочу загрузить в экземпляр Apache Hbase (работающий на AWS EMR, но это не должно иметь значения).CSV содержит ~ 15000 столбцов и ~ 50000 строк.Значения ячейки матрицы являются целыми числами.

CSV выглядит примерно так:

ROW_KEY col1 col2 col3 .... col15000
row1 0    1  125  456
row2 23   23  45  ...
row3 ...  ...  ...
...
row50000

Я планирую сохранить мою схему HBase в одном семействе столбцов с каждым из столбцов (col1, col2 и т. д.) в качестве классификаторов столбцов.

Я изучил итерацию CSV в скрипте Python и загрузил каждую строку, используя что-то вроде happybase , но, похоже, это заняло довольно много времени.

Я смотрел на инструмент ImportTSV , но похоже, что инструмент требует аргумент для детализации всех имен столбцов, например:

Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp

Детализация десятков тысяч столбцов в аргументах не кажется хорошим решением.

...