Question

Мой рабочий процесс состоит из нескольких задач (последовательных и параллельных), начиная от сбора данных из Hbase и выполнения различных алгоритмов машинного обучения для этих данных и т. Д.

Возможно ли выполнить их в Apache Spark без использования диспетчера рабочих процессов? Причина, по которой я спрашиваю, состоит в том, что у меня есть алгоритм, чтобы упорядочивать задачи партиями (задачи, которые можно запускать вместе). Могу ли я отправить их непосредственно в Spark?

Aliaksandr Sasnouskikh · Answer 1 · 23 октября 2019

Возможно, вы ищете расписание заданий Spark в приложении: https://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application.

Следуя указанным выше параметрам конфигурации, вы можете отправлять задания (запускать выполнение заданий, вызывая действия Spark) параллельно. Здесь вы также можете применить свой алгоритм to order the tasks in batches.

Имейте в виду, что некоторые из ваших заданий могут зависеть от результатов других, работающих параллельно. Обязательно контролируйте порядок таких заданий в вашем коде (Spark не делает такого рода DAG для вас).

Как выполнить последовательные / параллельные задачи рабочего процесса в Apache Spark без использования менеджеров рабочих процессов, таких как Oozie, Airflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выполнить последовательные / параллельные задачи рабочего процесса в Apache Spark без использования менеджеров рабочих процессов, таких как Oozie, Airflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов