Spark установил активные стадии на 1 - PullRequest
0 голосов
/ 15 января 2019

Я обрабатываю большой запрос с использованием искрового фрейма данных, и он занимает так много времени. И когда я смотрю на активные стадии, искра обрабатывает несколько стадий. Мне просто интересно, есть ли конфигурация для установки количества рабочих / активных ступеней равным 1, так что обработка искрой будет сосредоточена на 1 активной ступени.

1 Ответ

0 голосов
/ 15 января 2019

Для этого вам необходимо понять, как Spark распределяет задания по этапам и как они их обрабатывают.

Все этапы в одном искровом приложении будут работать последовательно. Это граф DAG, и каждый этап зависит от его родителя. Поэтому, если вы хотите запускать несколько задач (заданий) одновременно, вам нужно разделить свои задания на разные приложения и отправить каждое из них.

И все, что вызывает перераспределение данных между узлами, всегда создает новый этап. Поэтому, если вам нужно получить одноэтапное приложение, вам нужно ограничить перераспределение данных между узлами (возможно, как было сказано ранее, разделив ваши задания на разные приложения или переписав некоторую логику для уменьшения перетасовки данных).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...