Есть ли способ повторно использовать один работающий кластер блоков данных в нескольких потоках данных отображения - PullRequest
1 голос
/ 03 февраля 2020

Есть ли способ повторно использовать кластер блоков данных, который запускается веб-операцией, прежде чем мы запустим потоки сопоставления данных и используем один и тот же работающий кластер во всех потоках данных вместо того, чтобы позволить всем экземплярам потока данных раскручивать свои собственные кластеров, что занимает около 6 минут для настройки каждого кластера?

1 Ответ

1 голос
/ 03 февраля 2020

Да. Установите TTL в Azure Integration Runtime в разделе «Свойства потока данных» на промежуток времени между промежутками между выполнением задания потока данных. Таким образом, мы можем настроить пул виртуальных машин для вас и повторно использовать эти ресурсы, чтобы минимизировать время запуска кластера: https://techcommunity.microsoft.com/t5/azure-data-factory/adf-adds-ttl-to-azure-ir-to-reduce-data-flow-activity-times/ba-p/878380.

Чтобы запустить кластер, не использовать веб-активность. Используйте «фиктивный» поток данных, как я продемонстрирую здесь: https://youtu.be/FFCbU4ujCiY?t=533.

В ADF вы не можете получить доступ к базовым вычислительным механизмам (в данном случае к блоку данных), поэтому вам нужно пнуть отключить фиктивный поток данных для его прогрева.

Запуск этого кластера займет 5-6 минут. Но теперь, если вы будете использовать тот же Azure IR в ваших последующих действиях, если они запланированы для выполнения в этом окне TTL, ADF может захватить существующие ресурсы виртуальной машины, чтобы ускорить кластеры Spark и направить определение потока данных в выполнение задания Spark.

Сквозной процесс должен занимать всего 2 минуты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...