Как сохранить записи, которые отбрасываются водяными знаками при потоковой структуризации - PullRequest
0 голосов
/ 26 февраля 2020

Водяной знак позволяет автоматически c отбрасывать старые данные состояния в Apache Spark Structured Streaming. В structd-streaming-programming-guide.md пример подсчета слов демонстрирует, как водяные знаки могут легко отбрасывать записи или события, которые поступают поздно в системе. (https://github.com/apache/spark/blob/master/docs/structured-streaming-programming-guide.md)

words.withWatermark ("отметка времени", "10 минут")

Есть ли способ сохранить записи, которые были отброшены или удалены водяные знаки на диске или в столе?

Ответы [ 2 ]

0 голосов
/ 02 марта 2020

Да, у spark нет функции для отслеживания этих записей. Но Flink делает это!

0 голосов
/ 27 февраля 2020

Простой ответ - Нет. Стандартно не обслуживается SSS.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...