У меня есть один сценарий, у меня есть 3 кода pyspark и 1 код python, все они должны выполняться один за другим через планировщик, поэтому теперь проблема заключается в том, что при выполнении задания 3 pyspark он откроет 3 приложения spark, что дорого, поскольку этиpyspark мало что делает (просто настраивает файл и помещает его в HDFS), поэтому я должен создать один скрипт Wrapper, который будет вызывать эти 4 кода один за другим, и в случае сбоя любого из них он должен сделать запись в файле илитаблицу и перезапуск из состояния сбоя.
Итак, я думаю создать скрипт-обертку, который откроет один сеанс искры, а затем вызовет его один за другим, так что мой вопрос есть ли лучший способ? или как вызвать скрипт pyspark из скрипта-обёртки? Ниже приведены пункты, которые я рассматриваю в скрипте-обертке:
- Скрипт-обертка должен содержать один сеанс искры
- Одна таблица регистратора, чтобы после каждого запуска он проходил запись илиошибка.
- Вызов сценария с использованием имени класса.
Пример: у меня есть 4 класса в 4 разных кодах pyspark: класс HDFS_LOADER класс Raw_Validator класс Curated_Load класс Raw_Cleanser Python скрипт Archival.py
Не могли бы вы помочь мне подробно разобрать эту идею и помочь мне с вызовом этих классов в функции-обертке.