Параллельно выполняю задания в hadoop - PullRequest
11 голосов
/ 20 сентября 2011

Я новичок в hadoop.

Я настроил кластер из 2 узлов.

Как параллельно запускать 2 задания в hadoop.

Когда я отправляю задания, они запускаются одно за другим в порядке FIFO,Я должен выполнять задания параллельно.Как добиться этого.

Спасибо MRK

Ответы [ 3 ]

13 голосов
/ 20 сентября 2011

Hadoop может быть настроен с несколькими планировщиками, и по умолчанию используется планировщик FIFO.

Расписание FIFO ведет себя следующим образом.

Сценарий 1: Если в кластере 10 мощностей Map Map, и для job1 требуется 15 Map Task, то выполнение job1 занимает весь кластер.По мере выполнения задания 1 и наличия свободных слотов, которые не используются заданием 1, в кластере запускается задание 2.

Сценарий 2: если в кластере 10 мощностей сопоставления задач, а для задания 1 требуется 6 сопоставлений, то задание 1 занимает6 слотов и job2 занимает 4 слота.job1 и job2 выполняются параллельно.

Для параллельного запуска заданий с самого начала вы можете настроить Fair Scheduler или Capacity Scheduler в соответствии с вашими требованиями.Mapreduce.jobtracker.taskscheduler и конкретные параметры планировщика должны быть установлены для того, чтобы это вступило в силу в mapred-site.xml .

Редактировать: обновлен ответ на основе комментария отMRK.

4 голосов
/ 20 сентября 2011

У вас есть «Объем задач карты» и «Уменьшить объем задач». Всякий раз, когда они бесплатны, они выбирают работу в порядке FIFO. Ваши представленные вакансии содержат маппер и, возможно, редуктор. Если ваш счетчик заданий (и / или редуктор) меньше, чем емкость кластера, то потребуется следующий сопоставитель заданий (и / или редуктор).

Если вам не нравится FIFO, вы всегда можете отдать приоритет отправленным работам.

Редактировать:

Извините за небольшую неверную информацию, Правин ответит правильно. В дополнение к его ответу вы можете проверить HOD планировщик также.

2 голосов
/ 13 ноября 2012

При использовании планировщика по умолчанию только одно задание для пользователя за раз.Вы можете запускать разные задания из разных идентификаторов пользователей.Конечно, они будут работать параллельно, как уже упоминалось другими, вам нужно иметь достаточно места в слоте.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...