Понимание времени получения вычислений по конвейерам - PullRequest
0 голосов
/ 20 апреля 2020

Я изо всех сил пытаюсь оптимизировать конвейер фабрики данных, чтобы добиться как можно меньше времени, затрачиваемого на ускорение вычислений для потоков данных.

Насколько я понимаю, если мы установим время выполнения с TTL, скажем, 15 минут, то все последующие потоки, выполняемые в последовательности, следующей за этим, должны иметь очень короткое время получения вычислений, но это также верно, когда переключение с одного конвейера на другой - на изображении ниже будет ли поток 3 использовать, что время выполнения уже было ускорено в потоке 1? Я спрашиваю, потому что я вижу очень sporadi c поведение.

Пример конвейера

1 Ответ

0 голосов
/ 21 апреля 2020

Если вы используете тот же Azure ИК внутри того же завода, да. Тем не менее, действия должны выполняться последовательно, в противном случае ADF раскрутит другой пул для вас. Это связано с тем, что параллельные выполнения заданий Databricks не поддерживаются в кластерах заданий. Я описываю методы в этом видео и в этом документе .

...