Как эффективно выполнить массовый импорт таблицы с тысячами столбцов? - PullRequest
0 голосов
/ 30 апреля 2019

Я пытаюсь импортировать большую таблицу, сгенерированную в MATLAB, в HBase в AWS EMR. Я вывел таблицу MATLAB в файл CSV, и я понимаю, что для таблиц с минимальными столбцами я могу использовать следующее:

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator = "," -Dimporttsv.columns = HBASE_ROW_KEY, cf: 1, cf: 2, cf: 3 'name' s3n: // папка / file.csv

Однако это неэффективно для наборов данных с тысячами столбцов, так как для этого необходимо указать имя столбца для каждого столбца. Есть ли лучший / более эффективный способ импортировать мои данные?

...