Мы используем Spark Structured Streaming (2.4.4) для чтения из Kafka и записи файлов паркета в S3. Мы запускаем spark с триггером RunOnce, чтобы планировать его ежедневно (как пакет) и наслаждаемся преимуществами потоковой передачи, как описано здесь .
Однако мы видим, что «ровно один раз» негарантировано: если мы остановим работу во время записи и повторно запустим ее - появятся повторяющиеся записи.
Есть мысли, что нужно сделать, чтобы включить функцию "Точно однажды"?