Как включить гусеничный ход AWS в пошаговую функцию - PullRequest
0 голосов
/ 29 января 2020

Это мое требование: у меня есть работа гусеничной машины и pyspark в AWS Glue. Я должен настроить рабочий процесс, используя пошаговую функцию.

Вопрос 1: Как я могу добавить Crawler в качестве первого состояния. Какие параметры мне нужно предоставить (Resource, Type et c). Вопрос 2: Как убедиться, что следующее состояние - задание Pyspark запускается только после успешного запуска искателя. Вопрос 3: Можно ли запланировать запуск конечного автомата функции шага в определенное время?

1 Ответ

0 голосов
/ 23 апреля 2020

Несколько месяцев спустя, чтобы ответить на этот вопрос, но это можно сделать с помощью функции шага. Для этого можно создать следующие состояния:

  • TriggerCrawler: Состояние задачи: запускает функцию Lambda, в этой функции лямбды вы можете написать код для запуска AWS Glue Crawler, используя любой из aws -sdk
  • PollCrawlerStatus: Состояние задачи: лямбда-функция, которая запрашивает состояние Crawler и возвращает ее в качестве ответа лямбды.
  • IsCrawlerRunSuccessful: состояние выбора: на основе этого статус сканера клея вы можете сделать состояние «Следующее» статусом выбора, который будет либо go переходить в следующее состояние, которое запускает ваше задание Glue (после того, как состояние сканера клея «ГОТОВ»), либо go к Wait State для за несколько секунд до повторного опроса.
  • RunGlueJob: состояние задачи: лямбда-функция, запускающая склеивание.
  • WaitForCrawler: состояние ожидания: ожидание 'n' секунд до повторного запроса статуса.
  • Finish: Успешное состояние.

Вот как будет выглядеть эта пошаговая функция:

enter image description here

...