AWS Glue Job Lifecycle - ноутбук для работы - PullRequest
0 голосов
/ 04 апреля 2019

Каков идеальный жизненный цикл разработки для работы с клеем?Я был в состоянии создать пробную работу.Окно сценария работы отстой как IDE, что привело меня к изучению ноутбуков.У меня запущен и работает сервер ноутбуков, и я могу использовать ту же корзину S3, что и мои работы по склеиванию.

Если ноутбуки - это идеальная среда для написания и разработки, то вы отлично справляетесь с работой.Если у вас есть сценарий так, как вы хотите, есть ли простой «путь к развертыванию», чтобы сделать ноутбук работой?Я вижу два разных рабочих процесса

  1. Копировать и вставить - не элегантно, но просто, скопируйте код из блокнота и вставьте его в новое определение задания на клей.Вы скрещиваете пальцы, что код в блокноте не синхронизируется с работой склеивания.

  2. S3 в качестве хранилища ноутбука - я даже не знаю, сработает ли этоно я видел в конфигурации, что Zeppelin может сохранять записные книжки на S3, это то, что вы делаете, это указываете Zeppelin и Glue Job на одно и то же местоположение S3

Есть ли какой-то другой способ бытьделать все это?Я также хотел бы использовать Git для управления версиями файлов заданий, так что если есть какой-то способ встроить этот рабочий процесс, это тоже было бы неплохо.

1 Ответ

0 голосов
/ 24 июля 2019

Вы можете разобрать блокнот в скрипт на python. Вот сценарий , который я использовал для этого.

А вот рабочий процесс, который я сейчас использую: Когда вы объединяете ветку с главной веткой, она запускает конвейер Jenkins, который клонирует код в вашем git-репо, анализирует записную книжку на правильный код python, создает среду, запускает некоторые тесты, а затем, если все удается, загружает скрипт в Сценарий AWS Glue и, при необходимости, создание задания. После того, как задание создано, вам просто нужно переписать скрипт в корзине, чтобы обновить код.

...