Я пытаюсь удалить поздние данные из набора данных Structured Streaming.
Использование функции withWatermark в spark не помогает, а поздние данные не удаляются.
Мой набор данных не агрегируется в столбце времени события, так что это, вероятно, причина, в соответствии с искрами внутренности , водяной знак используется для управления состоянием, но я хочу использовать его для удаления поздних данных.
Есть Есть ли другой способ заставить искру соблюдать водяной знак?
В журналах я вижу, что водяной знак был применен (я отправляю данные раньше, чтобы обновить водяной знак):
"eventTime" : {
"avg" : "2020-04-08T14:10:01.532Z",
"max" : "2020-04-12T02:10:01.532Z",
"min" : "2020-04-05T02:10:01.532Z",
"watermark" : "2020-04-09T02:00:01.532Z"
}
, но старые события все еще записываются в результаты.