Spark структурированная потоковая передача с Trigger Once не поддерживает «Ровно один раз»

Мы используем Spark Structured Streaming (2.4.4) для чтения из Kafka и записи файлов паркета в S3. Мы запускаем spark с триггером RunOnce, чтобы планировать его ежедневно (как пакет) и наслаждаемся преимуществами потоковой передачи, как описано здесь .

Однако мы видим, что «ровно один раз» негарантировано: если мы остановим работу во время записи и повторно запустим ее - появятся повторяющиеся записи.

Есть мысли, что нужно сделать, чтобы включить функцию "Точно однажды"?

Spark структурированная потоковая передача с Trigger Once не поддерживает «Ровно один раз»

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark структурированная потоковая передача с Trigger Once не поддерживает «Ровно один раз»

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы