1: если вы выполняете потоки данных в конвейере параллельно, ADF раскручивает отдельные кластеры Spark для каждого на основе параметров в среде выполнения интеграции Azure, прикрепленных к каждому действию.
2: если выпоместите всю свою логику в один поток данных, и тогда все они будут выполняться в том же контексте выполнения задания на одном экземпляре кластера Spark.
3: Другой вариант - выполнять действия последовательно в конвейере. Если вы установили TTL в конфигурации Azure IR, то ADF будет повторно использовать вычислительные ресурсы (ВМ), но вы по-прежнему будете использовать совершенно новый контекст Spark для каждого выполнения.
Все это допустимые методы, и какой из них вы используете? Выбор должен быть обусловлен вашими требованиями к процессу ETL.
Нет. 3, вероятно, займет самое длительное время для выполнения сквозной. Но он обеспечивает четкое разделение операций на каждом шаге потока данных.
Нет. 2 может быть более трудным для логического следования и не дает вам многократного использования.
Нет. 1 действительно похож на # 3, но вы запускаете их все параллельно. Конечно, не каждый сквозной процесс может работать параллельно. Вам может потребоваться завершить поток данных перед началом следующего, и в этом случае вы вернетесь в последовательный режим # 3.