Несколько потоков данных против всех преобразований в одном - PullRequest
0 голосов
/ 18 октября 2019

Здравствуйте, я новичок в фабрике данных Azure и не все знакомы с серверной обработкой, которая выполняется за кулисами. Мне интересно, есть ли влияние на производительность параллельного запуска нескольких потоков данных по сравнению с наличием всех преобразований в одном потоке данных.

Я пытаюсь разместить некоторые данные с преобразованием, не существующим. Я должен сделать это для нескольких таблиц. когда я проверил два параллельных потока данных, кластеры были объединены для обоих потоков данных одновременно. Но я не уверен, что это лучший способ распределить загрузку таблиц между несколькими потоками данных или иметь все преобразования в одном потоке данных

1 Ответ

1 голос
/ 18 октября 2019

1: если вы выполняете потоки данных в конвейере параллельно, ADF раскручивает отдельные кластеры Spark для каждого на основе параметров в среде выполнения интеграции Azure, прикрепленных к каждому действию.

2: если выпоместите всю свою логику в один поток данных, и тогда все они будут выполняться в том же контексте выполнения задания на одном экземпляре кластера Spark.

3: Другой вариант - выполнять действия последовательно в конвейере. Если вы установили TTL в конфигурации Azure IR, то ADF будет повторно использовать вычислительные ресурсы (ВМ), но вы по-прежнему будете использовать совершенно новый контекст Spark для каждого выполнения.

Все это допустимые методы, и какой из них вы используете? Выбор должен быть обусловлен вашими требованиями к процессу ETL.

Нет. 3, вероятно, займет самое длительное время для выполнения сквозной. Но он обеспечивает четкое разделение операций на каждом шаге потока данных.

Нет. 2 может быть более трудным для логического следования и не дает вам многократного использования.

Нет. 1 действительно похож на # 3, но вы запускаете их все параллельно. Конечно, не каждый сквозной процесс может работать параллельно. Вам может потребоваться завершить поток данных перед началом следующего, и в этом случае вы вернетесь в последовательный режим # 3.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...