Как выполнить последовательные / параллельные задачи рабочего процесса в Apache Spark без использования менеджеров рабочих процессов, таких как Oozie, Airflow? - PullRequest
0 голосов
/ 23 октября 2019

Мой рабочий процесс состоит из нескольких задач (последовательных и параллельных), начиная от сбора данных из Hbase и выполнения различных алгоритмов машинного обучения для этих данных и т. Д.

Возможно ли выполнить их в Apache Spark без использования диспетчера рабочих процессов? Причина, по которой я спрашиваю, состоит в том, что у меня есть алгоритм, чтобы упорядочивать задачи партиями (задачи, которые можно запускать вместе). Могу ли я отправить их непосредственно в Spark?

1 Ответ

0 голосов
/ 23 октября 2019

Возможно, вы ищете расписание заданий Spark в приложении: https://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application.

Следуя указанным выше параметрам конфигурации, вы можете отправлять задания (запускать выполнение заданий, вызывая действия Spark) параллельно. Здесь вы также можете применить свой алгоритм to order the tasks in batches.

Имейте в виду, что некоторые из ваших заданий могут зависеть от результатов других, работающих параллельно. Обязательно контролируйте порядок таких заданий в вашем коде (Spark не делает такого рода DAG для вас).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...