Кластер заданий блоков данных на конвейер, а не на блокнот - PullRequest
0 голосов
/ 22 февраля 2019

Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS).Я соединил эти записные книжки в конвейере DataFactory:

Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook

Я создал соединение с моими базами данных из DataFactory и добавил его в свои записи.Я хотел бы запустить кластер Databricks всякий раз, когда конвейер был запущен.В целом все это работает нормально.Но Databricks запускает кластер заданий для каждой операции с ноутбуком, который занимает слишком много времени и кажется мне ненужным.

Можно ли запустить кластер в начале конвейера, а затем завершить его после завершения всех ноутбуков??Или есть какие-то аргументы, что хорошо иметь кластер заданий для каждого вида деятельности?

1 Ответ

0 голосов
/ 22 февраля 2019

В настоящее время использование одного кластера заданий для нескольких операций с записной книжкой невозможно.

Два альтернативных варианта:

  1. Использовать интерактивный кластер
  2. Использовать интерактивный кластер и (еслив начале необходимо иметь веб-активность для запуска кластера с помощью конечной точки REST лазурных баз данных и другую веб-активность в конце после операций с блокнотом до УДАЛИТЬ (ПРЕКРАЩИТЬ) кластера через конечную точку REST

К сожалению, оба варианта используют интерактивные кластеры - что немного дороже по сравнению с кластерами заданий .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...