У меня есть файл CSV, представляющий большую матрицу, которую я хочу загрузить в экземпляр Apache Hbase (работающий на AWS EMR, но это не должно иметь значения).CSV содержит ~ 15000 столбцов и ~ 50000 строк.Значения ячейки матрицы являются целыми числами.
CSV выглядит примерно так:
ROW_KEY col1 col2 col3 .... col15000
row1 0 1 125 456
row2 23 23 45 ...
row3 ... ... ...
...
row50000
Я планирую сохранить мою схему HBase в одном семействе столбцов с каждым из столбцов (col1, col2 и т. д.) в качестве классификаторов столбцов.
Я изучил итерацию CSV в скрипте Python и загрузил каждую строку, используя что-то вроде happybase , но, похоже, это заняло довольно много времени.
Я смотрел на инструмент ImportTSV , но похоже, что инструмент требует аргумент для детализации всех имен столбцов, например:
Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp
Детализация десятков тысяч столбцов в аргументах не кажется хорошим решением.