У меня есть папка AWS S3, в которой хранится большое количество JSON-файлов.Мне нужно ETL эти файлы с помощью AWS EMR поверх Spark и сохранить преобразование в AWS RDS.
Для этого я реализовал работу Spark в Scala, и все работает нормально.Я планирую выполнять это задание раз в неделю.
Время от времени внешняя логика может добавлять новые файлы в папку AWS S3, поэтому в следующий раз, когда запускается мое задание Spark, я хочу обрабатывать тольконовые (необработанные) файлы JSON.
Сейчас я не знаю, где хранить информацию об обработанных файлах JSON, чтобы задание Spark могло решать, какие файлы / папки обрабатывать.Не могли бы вы посоветовать мне, как лучше всего (и как) отслеживать эти изменения с помощью Spark / AWS?