Как структура потоковой передачи имеет дело с обработкой дельты озера водяным знаком - PullRequest
0 голосов
/ 01 апреля 2020

Интересно, как правильно бороться с потоковой структурой из таблицы дельты и водяных знаков. Я могу сделать: spark.readStream.format("delta").table("events").toDS.withWatermark("dt", "60 seconds")

Если данные сортируются по dt во время обработки? Потому что, если пакеты, которые вставляются в эту таблицу, превышают 60 с, потоковая передача может отбрасывать состояние до обработки всех данных. И как сделать переработку с самого начала. Я могу сбросить контрольную точку и запустить ее с самого начала, но возникает тот же вопрос: сортирует ли он данные? И особенно это важно, когда данные уже сжаты, я имею в виду, что маленькие файлы были сжаты в большие. Спасибо

...