Как установить количество задач карты в hadoop 0.20? - PullRequest
5 голосов
/ 20 сентября 2011

Я пытаюсь установить количество задач карты для запуска в среде hadoop 0.20.

Я использую старый API.

Вот варианты, которые я пробовал до сих пор:

    conf.set("mapred.tasktracker.map.tasks.maximum", "5");
    conf.set("mapred.map.tasks", "10");
    conf.set("mapred.map.tasksperslot", "5");
    conf.set("mapred.tasktracker.map", "5");
    conf.set("mapred.map.parallel.copies", "5");

При всех этих числах параллельно выполняемых задач карты остается 2.

Какие параметры следует задать, чтобы число параллельно работающих картографов достигло 5?

Ответы [ 2 ]

9 голосов
/ 20 сентября 2011

В TaskTracker.java

maxCurrentMapTasks = conf.getInt ("mapred.tasktracker.map.tasks.maximum", 2);

Согласно "Hadoop: Полное руководство" .Таким образом, установка свойства на стороне клиента не имеет смысла.Вам необходимо установить то же самое в файле конфигурации.

Имейте в виду, что некоторые свойства не влияют на настройку в конфигурации клиента.Например, если в своей заявке на работу вы задали mapred.tasktracker.map.tasks.maximum, ожидая, что это изменит количество слотов задач для тех, кто отслеживает выполнение вашей работы, вы будете разочарованы, поскольку это свойство толькоПризнается, если установлено в файле mapred-site.html на треккере.В общем, вы можете указать компоненту, где свойство должно быть установлено по его имени, поэтому тот факт, что mapred.task.tracker.map.tasks.maximum начинается с mapred.tasktracker, дает вам подсказку, что его можно установить только дляTaskTracker демон.Однако это не жесткое и быстрое правило, поэтому в некоторых случаях вам может потребоваться прибегнуть к методам проб и ошибок или даже прочитать источник.

0 голосов
/ 05 января 2016

Чтобы быть в курсе последних изменений в Hadoop API, я перечислил новые замены устаревших свойств.

mapred.tasktracker.map.tasks.maximum => mapreduce.tasktracker.map.tasks.maximum
mapred.map.tasks => mapreduce.job.maps

Посмотритепо этой ссылке для устаревшего API и нового API

Но я предпочитаю оставить решение по числу задач на карте в качестве основы для лучшей производительности работы.

...