Я создаю приложение Django, в котором я хотел бы, чтобы мой сервер Django отправлял задачи в мой кластер Spark (может или не мог управляться Yarn) и возвращал результаты в виде JSON.Эти задачи будут асинхронными (поэтому я буду использовать для них Celery, а также получать обновления прогресса оттуда).
Проблема, с которой я сейчас сталкиваюсь, заключается в том, что каждый раз, когда вызывается задача, инициализируется контекст Spark, запускается довольно много времени, а затем моя задача запускается.Есть ли способ сохранить мой SparkContext()
живым, чтобы я мог просто отправлять ему задания?
Можно ли отправлять задания в кластер Spark без вызова spark-submit
?
Я пытаюсь прочитать о Spark Job Server и Apache Livy , но я не понимаю, как я могу использовать его в своей архитектуре.
Примечание: я использую spark-submit
из задач сельдерея для запуска заданий на данный момент.