Управление ресурсами для запуска нескольких приложений Spark в одном кластере - PullRequest
0 голосов
/ 01 декабря 2018

Я пытаюсь запустить два приложения spark в одном кластере.YARN - это используемый менеджер ресурсов.Оба моих спарк-приложения используют динамическое распределение.

Когда я запускаю первое приложение, оно использует все ресурсы кластера.Когда я запускаю второе приложение, YARN не выделяет ему никаких ресурсов, потому что они используются первым приложением.Как только первое приложение завершается, тогда и только тогда запускается второе приложение.

Каковы способы запуска обоих приложений одновременно?Я знаю, что могу вручную назначить определенное количество ресурсов каждому приложению, прежде чем запускать их, но это не кажется мне хорошим решением.Я использую Hue / Oozie в AWS EMR для запуска искровых приложений.В идеале я бы предпочел решение, в котором я смогу назначить максимальный процент ресурсов кластера для каждого приложения.

1 Ответ

0 голосов
/ 01 декабря 2018

Вы должны сконфигурировать YARN в порядке справедливого распределения акций ( подробнее здесь ).Как правило, экосистемы Hadoop являются общими системами, и в зависимости от приоритета проекта или приложения YARN можно настроить так, чтобы либо все приложения получали одинаковый приоритет, либо они получали справедливую долю контейнеров.Если вы ничего не настроите, он перейдет к стандартному (FIFO) и будет основан на доступных контейнерах.

...