Каждый день мы получаем один инкрементальный файл, и у нас есть несколько источников, из которых мы получаем инкрементные файлы. И оба разместят эти файлы в двух разных префиксах s3. Но они приходят в разное время. Мы хотим обработать оба файла за один раз и сгенерировать отчет об этом. Для этого я буду использовать AWS Lambda и Data Pipeline. Мы запустим канал передачи данных AWS через Lambda. И лямбда будет запускаться всякий раз, когда поступает новый файл.
Мы можем сделать то же самое, когда у нас есть один источник, поэтому мы создали триггер s3 для лямбды всегда, и когда файл приходит, он запускается иНачинается конвейерная линия и активность emr, а в конце генерируется отчет.
Теперь у нас также есть второй источник, и теперь мы хотим начать действие всякий раз, когда оба файла поступают / загружаются.
Не уверен, сможем ли мы запустить лямбда aws с более чем одной зависимостью. Я знаю, что это можно сделать с помощью пошаговых функций. Я мог бы пойти по этому пути, если бы у нас не было поддержки запуска лямбды с несколькими зависимостями.
Запуск лямбда-функции AWS при поступлении новых файлов с двумя разными префиксами s3. Не вызывать лямбда-функцию, если файл поступил только в местоположение s3, но не в другое место.