У меня кластер EMR с количеством шагов.Я пытаюсь анализировать данные журнала, поступающие каждую неделю.Я хочу выполнять одни и те же шаги каждую неделю для добавленных данных.
Длительный кластер :
- Загрузить файл журнала из
data source
(загрузить или скопировать записи из файла журнала, если он будет запущен позже) - Анализ данных
- Возврат данных к месту назначения
Как я могу выполнять одни и те же шаги каждую неделю в кластере?
Или мне нужно раскручивать новый кластер каждую неделю?
Было бы замечательно, если бы я мог получить некоторые рекомендации по типу источника данных в таком сценарии, который обрабатывает огромные данные.