HDP MapReduce Jobs Concurrency - PullRequest
       185

HDP MapReduce Jobs Concurrency

0 голосов
/ 11 июля 2020

Я пытаюсь импортировать данные из Oracle во внутренний Hive с помощью sq oop. Мои запросы sq oop работают нормально, но когда я пытаюсь запустить несколько запросов sq oop одновременно в скрипте, выполняется только одно задание MapReduce, а остальные ждут в принятой очереди на YARN. Таблицы, которые я пытаюсь импортировать с помощью sq oop, имеют примерно ~ 500 миллионов строк и ~ 100 столбцов. Я внес некоторые изменения в конфигурацию служб, но проблема осталась.

Есть ли способ одновременно запускать эти задания MapReduce? Информация о моем кластере указана ниже.

HDP 3.0.1, Ambari 2.7.0, 4 главных узла, 3 служебных узла, 7 рабочих узлов. Каждый узел имеет 128 ГБ памяти и 32 процессора. Версия sq oop - 1.4.7. Спасибо. YARN Confugiration-1

YARN Configuration-2

MapReduce Confugiration

HDFS Configuration

Очередь приложений YARN

1 Ответ

0 голосов
/ 16 июля 2020

yarnsite. xml необходимо настроить для использования другой политики планирования. Я считаю, что FIFO выбран по умолчанию.

Раньше это веб-страница, которую я использовал для настройки планировщика емкости. Я думаю, вы можете использовать Fair Scheduler, но выбор в конечном итоге остается за вами. http://www.corejavaguru.com/bigdata/hadoop-tutorial/yarn-scheduler

Примечание: вам может потребоваться добавить дополнительные аргументы конфигурации при отправке задания. Например, в планировщике емкости вам необходимо указать, в какую очередь нужно добавить ваше задание.

...