Обрабатывать слишком поздние данные в Spark Streaming - PullRequest
0 голосов
/ 03 июля 2019

Водяной знак позволяет учитывать данные, поступающие с опозданием, для включения в уже вычисленные результаты в течение определенного периода времени с использованием окон. Его предпосылка заключается в том, что он отслеживает момент времени, до которого предполагается, что более поздние события не ожидаются, но если они это делают, они тем не менее discarded.

Есть ли способ хранения отброшенных данных, который позже можно будет использовать для целей сверки? Скажем, в моем структурированном потоке я установил водяной знак на 1 час. Я делаю операцию с окном каждые 10 минут и позже получаю событие на 20 минут позже. Есть ли способ сохранить отброшенные данные, скажем, в другом месте, а не отбрасывать их?

1 Ответ

0 голосов
/ 03 июля 2019

Нет, нет способа достичь этого аспекта.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...