У меня есть код pyspark, который выполняется на пограничном узле кластера Hadoop.Этот код pyspark выполняет различные шаги от разработки функций до обучения и прогнозирования ML.Код находится на GitHub, и я могу потянуть его на краевой узел.Код может быть передан с использованием spark-submit в режиме пряжи / клиента или пряжи / кластера.пока все хорошо.
Теперь я хотел бы запланировать некоторые из этих задач регулярно:
- У меня есть некоторые ограничения на краевой узел, и я не могу использовать crontab
- вероятно, лучший вариант - использовать Oozie для отправки задания.
Мой вопрос заключается в том, как развернуть код простым / понятным способом на кластере Haddop каждый раз, когда я избегаю какой-либо модификации, чтобы она могла бытьрасписание с Oozie (я думаю, Oozie - лучший вариант для планирования, так как оно уже установлено)
- Я могу вытащить код из github на заметку края, а затем скопировать и перезаписать файлы на hdfs
- CI / CD еще не создан и его планируется использовать для производственного кластера Hadoop.
- Любое другое решение?
Какова наилучшая практика для такого использования?задача?(это код Data Science / ML, поэтому у нас есть собственный кластер Hadoop, который отделен от кластера для производства (прием данных, обработка данных с помощью scala ...)