Не уверен, что это всего лишь AWS вещь.
В соответствии с предлагаемым сегодня подходом Databricks
, который заключается в том, чтобы попытаться избежать чистого пакета, вы можете настроить Spark Structured Streaming для обработки входящих сообщений. файлы в качестве триггера файлов в наблюдаемом каталоге (по Spark), в отличие от событий KAFKA.
Затем вы получаете некое подобие обработки файлов методом «струйной подачи».
Вы можете настроить Spark Structured Streaming для обработки длинного интервала, 1 или N файлов одновременно.