У меня есть два потоковых фрейма данных - firstDataFrame
и secondDataframe
.Я хочу, чтобы поток первого DataFrame полностью.И если первая потоковая передача завершается успешно, только тогда я хотел бы выполнить потоковую передачу другого фрейма данных
Например, в приведенном ниже коде я бы хотел, чтобы первое потоковое действие выполнялось полностью, а только затем - второе, чтобы начать
firstDataframe.writeStream.format("console").start
secondDataframe.writeStream.format("console").start
Spark по умолчанию выполняет планирование заданий FIFO.Это означает, что он будет отдавать приоритет первому потоковому заданию.Однако, если первое потоковое задание не требует всех доступных ресурсов, оно будет запускать второе потоковое задание параллельно.Я по сути хочу избежать этого параллелизма.Есть ли способ сделать это?
Ссылка: https://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application