Как изменить количество картографов с файлами ORC, используя tez? - PullRequest
1 голос
/ 22 октября 2019

Я пытаюсь увеличить количество задач карты. Формат файла ORC и использует TEZ для обработки.

У меня файлы размером 2,8 ГБ. Примерно 128 МБ файлов, а количество файлов составляет 29 ок.

Каждый раз, когда я выполняю 28, выполняется задача карты. Я пытаюсь увеличить количество задач карты.

Заранее спасибо

1 Ответ

0 голосов
/ 27 октября 2019

Проверьте эти настройки (см. Комментарии ниже):

set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started

Также вы можете контролировать количество картографов, используя эту настройку:

set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible
...