Инструмент Sqoop Merge для генерации вывода в одном файле - PullRequest
0 голосов
/ 26 июня 2018

В настоящее время я выполняю следующую команду

sqoop merge --new-data / home / part1 / part-m-00000 --onto / home / part2 / part-m-00000 -target-dir / home / merged --jar-file /home/hadoop/myjar.jar --class-name myjar --merge-key id

Все работает нормально, за исключением того, что слияние генерирует выходные данные в несколькихфайлы деталей, так как это задача mapreduce в hadoop, в которой используются несколько редукторов.

Файлы деталей - это файлы паркета, я хочу создать один файл, так как этот же файл будет введен для моего следующего процесса, а следующий процессзапустить задание Apache на том же извлеченном файле.

Как я могу заставить вывод sqoop объединить в один файл?Любое предложение по этому поводу?

Спасибо,

-Джексон

1 Ответ

0 голосов
/ 26 июня 2018

Что я сделал, когда мне нужно было сделать это:

  1. Создать новый целевой файл
  2. После выполнения команды Sqoop перейдите в каталог, где находятся все файлы деталей создано
  3. Выполнить кошку * >> target_file

Не уверен, сработает ли это для вас, поскольку у меня недостаточно подробностей для работы с вашим примером.

Предполагается, что вы выполняете команду sqoop из сценария оболочки.

...