Spark структурированная потоковая передача с Trigger Once не поддерживает «Ровно один раз» - PullRequest
0 голосов
/ 07 октября 2019

Мы используем Spark Structured Streaming (2.4.4) для чтения из Kafka и записи файлов паркета в S3. Мы запускаем spark с триггером RunOnce, чтобы планировать его ежедневно (как пакет) и наслаждаемся преимуществами потоковой передачи, как описано здесь .

Однако мы видим, что «ровно один раз» негарантировано: если мы остановим работу во время записи и повторно запустим ее - появятся повторяющиеся записи.

Есть мысли, что нужно сделать, чтобы включить функцию "Точно однажды"?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...