Question

Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS).Я соединил эти записные книжки в конвейере DataFactory:

Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook

Я создал соединение с моими базами данных из DataFactory и добавил его в свои записи.Я хотел бы запустить кластер Databricks всякий раз, когда конвейер был запущен.В целом все это работает нормально.Но Databricks запускает кластер заданий для каждой операции с ноутбуком, который занимает слишком много времени и кажется мне ненужным.

Можно ли запустить кластер в начале конвейера, а затем завершить его после завершения всех ноутбуков??Или есть какие-то аргументы, что хорошо иметь кластер заданий для каждого вида деятельности?

databash · Answer 1 · 22 февраля 2019

В настоящее время использование одного кластера заданий для нескольких операций с записной книжкой невозможно.

Два альтернативных варианта:

Использовать интерактивный кластер
Использовать интерактивный кластер и (еслив начале необходимо иметь веб-активность для запуска кластера с помощью конечной точки REST лазурных баз данных и другую веб-активность в конце после операций с блокнотом до УДАЛИТЬ (ПРЕКРАЩИТЬ) кластера через конечную точку REST

К сожалению, оба варианта используют интерактивные кластеры - что немного дороже по сравнению с кластерами заданий .

Кластер заданий блоков данных на конвейер, а не на блокнот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Кластер заданий блоков данных на конвейер, а не на блокнот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы