Как запланировать работу Spark - PullRequest
0 голосов
/ 15 марта 2020

Я использую Azure сервисы для запуска своих заданий pyspark. Ниже приведены мои шаги:

  1. Я создал Docker образ для моей работы в pyspark.
  2. Я звоню AKS для выделения моего ресурса

Что мне нужно, так это то, что я хочу запланировать свою работу (Должен работать в определенные c дней и месяцев). Что было бы лучшим вариантом для планирования, поскольку я новичок в Azure сервисах.

Обновление

  1. Я создал свои искровые задания, которые работают на модулях AKS.
  2. Теперь я хочу запланировать эти стручки на определенной частоте (без ограничений по выбору времени).

Ответы [ 2 ]

0 голосов
/ 22 марта 2020

Для планирования заданий Spark, например, задания Cron или чего-то подобного, Apache Airflow поможет. Попробуйте исследовать это. Это одна из лучших систем планирования, написанная на Python. Это основано на коде, что означает, что вы должны кодировать весь поток в python, и вам будет представлен аккуратный DAG, представляющий ваши запланированные задачи!

https://airflow.apache.org/docs/stable/scheduler.html

0 голосов
/ 15 марта 2020

Я не уверен, так как ваш вопрос не очень понятен, но вы можете запустить Cron Jobs в K8S: https://kubernetes.io/docs/concepts/workloads/controllers/cron-jobs/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...