Spark Structured-Streaming - Водяной знак на неагрегированных данных - PullRequest
1 голос
/ 13 апреля 2020

Я пытаюсь удалить поздние данные из набора данных Structured Streaming.

Использование функции withWatermark в spark не помогает, а поздние данные не удаляются.

Мой набор данных не агрегируется в столбце времени события, так что это, вероятно, причина, в соответствии с искрами внутренности , водяной знак используется для управления состоянием, но я хочу использовать его для удаления поздних данных.

Есть Есть ли другой способ заставить искру соблюдать водяной знак?

В журналах я вижу, что водяной знак был применен (я отправляю данные раньше, чтобы обновить водяной знак):

"eventTime" : {
"avg" : "2020-04-08T14:10:01.532Z",
"max" : "2020-04-12T02:10:01.532Z",
"min" : "2020-04-05T02:10:01.532Z",
"watermark" : "2020-04-09T02:00:01.532Z"
}

, но старые события все еще записываются в результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...