Да. Установите TTL в Azure Integration Runtime в разделе «Свойства потока данных» на промежуток времени между промежутками между выполнением задания потока данных. Таким образом, мы можем настроить пул виртуальных машин для вас и повторно использовать эти ресурсы, чтобы минимизировать время запуска кластера: https://techcommunity.microsoft.com/t5/azure-data-factory/adf-adds-ttl-to-azure-ir-to-reduce-data-flow-activity-times/ba-p/878380.
Чтобы запустить кластер, не использовать веб-активность. Используйте «фиктивный» поток данных, как я продемонстрирую здесь: https://youtu.be/FFCbU4ujCiY?t=533.
В ADF вы не можете получить доступ к базовым вычислительным механизмам (в данном случае к блоку данных), поэтому вам нужно пнуть отключить фиктивный поток данных для его прогрева.
Запуск этого кластера займет 5-6 минут. Но теперь, если вы будете использовать тот же Azure IR в ваших последующих действиях, если они запланированы для выполнения в этом окне TTL, ADF может захватить существующие ресурсы виртуальной машины, чтобы ускорить кластеры Spark и направить определение потока данных в выполнение задания Spark.
Сквозной процесс должен занимать всего 2 минуты.