Запуск нескольких заданий spark и python в последовательности в одном приложении spark с использованием Wrapper - PullRequest
0 голосов
/ 07 октября 2019

У меня есть один сценарий, у меня есть 3 кода pyspark и 1 код python, все они должны выполняться один за другим через планировщик, поэтому теперь проблема заключается в том, что при выполнении задания 3 pyspark он откроет 3 приложения spark, что дорого, поскольку этиpyspark мало что делает (просто настраивает файл и помещает его в HDFS), поэтому я должен создать один скрипт Wrapper, который будет вызывать эти 4 кода один за другим, и в случае сбоя любого из них он должен сделать запись в файле илитаблицу и перезапуск из состояния сбоя.

Итак, я думаю создать скрипт-обертку, который откроет один сеанс искры, а затем вызовет его один за другим, так что мой вопрос есть ли лучший способ? или как вызвать скрипт pyspark из скрипта-обёртки? Ниже приведены пункты, которые я рассматриваю в скрипте-обертке:

  1. Скрипт-обертка должен содержать один сеанс искры
  2. Одна таблица регистратора, чтобы после каждого запуска он проходил запись илиошибка.
  3. Вызов сценария с использованием имени класса.

Пример: у меня есть 4 класса в 4 разных кодах pyspark: класс HDFS_LOADER класс Raw_Validator класс Curated_Load класс Raw_Cleanser Python скрипт Archival.py

Не могли бы вы помочь мне подробно разобрать эту идею и помочь мне с вызовом этих классов в функции-обертке.

...