Если вы не используете docker
и просто используете kedro для развертывания непосредственно в кластере блоков данных. Вот как мы внедряем kedro в блоки данных.
CI / CD строит конвейер с использованием kedro package
. Создает файл колеса.
Загрузка dist
и conf
в dbfs или копию файла AzureBlob (при использовании Azure Databricks)
Это будет загружать все в блоки данных на каждом git push
Тогда вы можете иметь блокнот со следующим:
- Вы можете иметь скрипт инициализации в кирпичах данных, например:
from cargoai import run
from cargoai.pipeline import create_pipeline
branch = dbutils.widgets.get("branch")
conf = run.get_config(
project_path=f"/dbfs/project_name/build/cicd/{branch}"
)
catalog = run.create_catalog(config=conf)
pipeline = create_pipeline()
Здесь conf
, catalog
и pipeline
будут доступны
Вызывайте этот скрипт инициализации, если вы хотите запустить ветку или master
ветку в рабочей среде, например: %run "/Projects/InitialSetup/load_pipeline" $branch="master"
Для разработки и тестирования вы можете запустить определенные c узлы pipeline = pipeline.only_nodes_with_tags(*tags)
Затем запустите полный или частичный конвейер, набрав всего лишь SequentialRunner().run(pipeline, catalog)
В производстве этот ноутбук можно запланировать с помощью блоков данных , Если вы используете Azure Databricks, вы можете использовать Azure Data Factory
, чтобы запланировать и запустить это.