Водяной знак позволяет автоматически c отбрасывать старые данные состояния в Apache Spark Structured Streaming. В structd-streaming-programming-guide.md пример подсчета слов демонстрирует, как водяные знаки могут легко отбрасывать записи или события, которые поступают поздно в системе. (https://github.com/apache/spark/blob/master/docs/structured-streaming-programming-guide.md)
words.withWatermark ("отметка времени", "10 минут")
Есть ли способ сохранить записи, которые были отброшены или удалены водяные знаки на диске или в столе?
Да, у spark нет функции для отслеживания этих записей. Но Flink делает это!
Простой ответ - Нет. Стандартно не обслуживается SSS.