Question

Я пытаюсь вывести содержимое таблицы в hive в hdfs в виде одного файла CSV, однако, когда я запускаю приведенный ниже код, он разбивает его на 5 отдельных файлов по ~ 500 МБ каждый. Я что-то упускаю с точки зрения вывода результатов в виде одного файла CSV?

set hive.execution.engine=tez;
set hive.merge.tezfiles=true;
INSERT OVERWRITE DIRECTORY  "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable;

Shu · Answer 1 · 01 февраля 2020

Добавьте orderby в ваш запрос на выбор, тогда Hive заставит запустить single reducer, что создаст только один файл в каталоге HDFS.

INSERT OVERWRITE DIRECTORY  "/dl/folder_name"
row format delimited fields terminated by ','
select * from schema.mytable order by <col_name>;

Примечание:

Если количество строк в выходных данных слишком велико, single reducer может занять очень много времени для завершения sh.

Вывод таблицы кустов в HDFS в виде одного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вывод таблицы кустов в HDFS в виде одного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы