Question

Я пытаюсь увеличить количество задач карты. Формат файла ORC и использует TEZ для обработки.

У меня файлы размером 2,8 ГБ. Примерно 128 МБ файлов, а количество файлов составляет 29 ок.

Каждый раз, когда я выполняю 28, выполняется задача карты. Я пытаюсь увеличить количество задач карты.

Заранее спасибо

leftjoin · Answer 1 · 27 октября 2019

Проверьте эти настройки (см. Комментарии ниже):

set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started

Также вы можете контролировать количество картографов, используя эту настройку:

set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible

Как изменить количество картографов с файлами ORC, используя tez?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как изменить количество картографов с файлами ORC, используя tez?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы