Question

Я вывожу файл orc из моей задачи hadoop. Моя схема содержит вложенные структуры и несколько списков (около четырех списков). Длина каждого списка составляет от 0 до 200. Моя задача также является файлом orc простой структуры.

Ситуация такая, когда маппер начинает работать, весь маппер застрянет с прогрессом 1,67%, примерно через 20 минут процесс начнет двигаться вперед.

Я пытался выяснить причину.

Я прокомментировал context.write, вся задача по уменьшению карты была завершена в течение 10 минут, и застрявшая ситуация исчезла.
Вывести пустой список, задача все еще быстро завершена.

Так что, кажется, большой список является причиной проблемы. Тем не менее, вопросы:

Может ли файл ORC со списком длины 200 вызвать проблемы с производительностью? Если это так, какие-либо решения?
почему прогресс застревает на попрошайничестве и начинает работать через 20 минут?

версия orc: orc-mapreduce 1.5.2, hadoop-mapreduce-client-core 2.8.0

Проблема производительности при записи выходного файла ORC из карты Hadoop / задачи сокращения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблема производительности при записи выходного файла ORC из карты Hadoop / задачи сокращения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы