Проблема производительности при записи выходного файла ORC из карты Hadoop / задачи сокращения - PullRequest
0 голосов
/ 14 ноября 2018

Я вывожу файл orc из моей задачи hadoop. Моя схема содержит вложенные структуры и несколько списков (около четырех списков). Длина каждого списка составляет от 0 до 200. Моя задача также является файлом orc простой структуры.

Ситуация такая, когда маппер начинает работать, весь маппер застрянет с прогрессом 1,67%, примерно через 20 минут процесс начнет двигаться вперед.

Я пытался выяснить причину.

  1. Я прокомментировал context.write, вся задача по уменьшению карты была завершена в течение 10 минут, и застрявшая ситуация исчезла.
  2. Вывести пустой список, задача все еще быстро завершена.

Так что, кажется, большой список является причиной проблемы. Тем не менее, вопросы:

  1. Может ли файл ORC со списком длины 200 вызвать проблемы с производительностью? Если это так, какие-либо решения?
  2. почему прогресс застревает на попрошайничестве и начинает работать через 20 минут?

версия orc: orc-mapreduce 1.5.2, hadoop-mapreduce-client-core 2.8.0

...