Обработка поздних событий с водяным знаком Spark Structured Streaming? - PullRequest
0 голосов
/ 22 сентября 2018

В моем структурированном потоке я установил водяной знак на 1 час.

Я выполняю оконную операцию каждые 10 минут.

Позднее событие получалось на 20 минут позже.

Будет ли рассчитываться соответствующее окно или нет?

1 Ответ

0 голосов
/ 22 сентября 2018

Водяной знак позволяет учитывать поступившие с опозданием данные для включения в уже вычисленные результаты за период времени с использованием окон.Его предпосылка заключается в том, что он отслеживает момент времени, до которого предполагается, что более поздние события не ожидаются, но если они это делают, они тем не менее отбрасываются.Существуют различные режимы работы.

Прекрасные примеры на https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time с хорошими диаграммами для дополнения.

Ваш вопрос: Да, этот пример, который вы процитируете, будет включать поздние данные, так какименно в этом случае, как вы описываете это в окне 1 час.

...