Интеграция Databricks-GitHub, автоматическое добавление всех записных книжек в хранилище - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь настроить Интеграция GitHub для Databricks .
У нас там сотни ноутбуков, и было бы утомительно добавлять каждый ноутбук в репозиторий вручную.

Есть ли способ автоматически зафиксировать и передать все записные книжки из блоков данных в репозиторий?

1 Ответ

0 голосов
/ 22 февраля 2019

Так как никто не ответил на это в течение 3 месяцев, я выложу свое собственное решение.

Под /Shared/ dir в кирпичах данных у нас есть записные книжки, которые должны быть синхронизированы с хранилищем под notebooks/Shared/.
Я запускаю этот скрипт на регулярной основе, что позволяет поддерживать все ноутбуки в актуальном состоянии в репо.

databricks workspace export_dir /Shared ./notebooks/Shared -o
git add --all
git commit -m "shared notebooks updated"
git push
Флаг

-o предназначен для переопределения существующих ноутбуков с последней версией.

Больше информации здесь: https://databricks.com/blog/2017/11/08/introducing-command-line-interface-for-databricks-developers.html

Обратите внимание, что сначала вы должны установить и настроить databricks-cli на вашем компьютере: https://docs.databricks.com/user-guide/dev-tools/databricks-cli.html#set-up-the-cli

...