Запустите шаги кластера для загрузки файла в EMR - PullRequest
0 голосов
/ 26 сентября 2018

У меня кластер EMR с количеством шагов.Я пытаюсь анализировать данные журнала, поступающие каждую неделю.Я хочу выполнять одни и те же шаги каждую неделю для добавленных данных.

Длительный кластер :

  1. Загрузить файл журнала из data source (загрузить или скопировать записи из файла журнала, если он будет запущен позже)
  2. Анализ данных
  3. Возврат данных к месту назначения

Как я могу выполнять одни и те же шаги каждую неделю в кластере?

Или мне нужно раскручивать новый кластер каждую неделю?

Было бы замечательно, если бы я мог получить некоторые рекомендации по типу источника данных в таком сценарии, который обрабатывает огромные данные.

1 Ответ

0 голосов
/ 26 сентября 2018

Вы можете отправить новые шаги в кластер, вызвав add-steps - Справочник по командам интерфейса командной строки AWS .

Таким образом, вам понадобится задание cron где-нибудь, которое вызывает кластердобавить шаги.Вы можете создать задание cron на главном узле, или существует множество инструментов Hadoop, которые могут планировать и организовывать задания.

Вы, конечно, не требуете новый узел, так как у вас естькластер уже работает.

...