Искра течет по соображениям пряжи - PullRequest
0 голосов
/ 30 августа 2018

Интересно, как работает честный планировщик с Spark (структурированным) Streaming при работе на Yarn.

Мне нужно запустить несколько потоковых работ на кластере пряжи. Чтобы понять, как определить его размер, мне нужно понять, что произошло при запуске потокового задания, которое является долго выполняющимся заданием. Должен ли я нарезать кластер на каждое потоковое задание статически или могу положиться на Yarn для динамического распределения ресурсов между потоковым заданием.

Я предполагаю, что потоковое задание выполняется постоянно, поэтому контейнер с исполнителями задания потоковой передачи не будет освобожден по требованию для балансировки между различными потоковыми заданиями, если для каждого задания требуется исполнитель размера контейнера ".

Один вопрос заключается в том, что происходит с исполнителем в приложении spark, который не получает данные для обработки в мини-пакете. Является ли он бездействующим, и поэтому его ресурс может быть перераспределен, или он сохраняет его ресурсом?

Короче говоря, (1) скажем, что обработка варьируется в зависимости от мини-пакета, иногда мини-пакет будет пустым, поскольку данные не поступают, иногда для извлечения данных не требуется все ядро ​​в исполнителе или весь исполнитель среди множества исполнителей, выделенных для этой потоковой работы, тогда что же делает искра? Может ли пряжа это заметить? и динамически переназначать ресурсы? (2) Что, если для каждого потокового задания всегда требуется полная емкость, Yarn балансирует между ними или кластер должен быть предварительно разрезан?

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...