Я вывожу файл orc из моей задачи hadoop. Моя схема содержит вложенные структуры и несколько списков (около четырех списков). Длина каждого списка составляет от 0 до 200. Моя задача также является файлом orc простой структуры.
Ситуация такая, когда маппер начинает работать, весь маппер застрянет с прогрессом 1,67%, примерно через 20 минут процесс начнет двигаться вперед.
Я пытался выяснить причину.
- Я прокомментировал
context.write
, вся задача по уменьшению карты была завершена в течение 10 минут, и застрявшая ситуация исчезла.
- Вывести пустой список, задача все еще быстро завершена.
Так что, кажется, большой список является причиной проблемы. Тем не менее, вопросы:
- Может ли файл ORC со списком длины 200 вызвать проблемы с производительностью? Если это так, какие-либо решения?
- почему прогресс застревает на попрошайничестве и начинает работать через 20 минут?
версия orc: orc-mapreduce
1.5.2, hadoop-mapreduce-client-core
2.8.0