Экспорт данных таблицы кустов в .csv - PullRequest
0 голосов
/ 01 мая 2020

Этот вопрос, возможно, задавался ранее, и я относительно плохо знаком с языком HAD OOP и HIVE. Поэтому я пытаюсь экспортировать контент, чтобы проверить, правильно ли я все делаю. Код ниже.

Use MY_DATABASE_NAME;
INSERT OVERWRITE LOCAL DIRECTORY '/random/directory/test'
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','  
LINES TERMINATED BY "\n"
SELECT date_ts,script_tx,sequence_id FROM dir_test WHERE date_ts BETWEEN '2018-01-01' and '2018-01-02';

Это то, что у меня есть до сих пор, но затем он генерирует несколько файлов, и я хочу объединить их в файл .csv или файл .xls для дальнейшей работы. Мой вопрос, что мне делать дальше, чтобы совершить sh это?

Заранее спасибо.

1 Ответ

1 голос
/ 01 мая 2020

Это можно сделать следующими способами:

  1. Использовать в запросе один редуктор, например ORDER BY <col_name>
  2. Сохранить в HDFS, а затем использовать команду hdfs dfs –getmerge [-nl] <src> <localdest>
  3. Используя Билайн: beeline --outputformat=csv2 -f query_file.sql > <file_name>.csv
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...