Я новичок в структурированной потоковой передаче. Поскольку встроенный API не может выполнять операцию Count Distinct в Window, я хочу сначала использовать dropDuplicates, а затем выполнить подсчет окна. Но в процессе использования возникают две проблемы:
Поскольку это потоковые вычисления, в процессе дедупликации необходимо очищать состояние во времени, что требует сотрудничества водяной знак. Предполагая, что мое поле времени события постоянно увеличивается, и я установил водяной знак на 1 час, означает ли это, что данные за 10 часов будут сравниваться только в этих данных с 9 до 10 часов, а данные до 9 часов будет очищено?
Поскольку это дедупликация окна, я устанавливаю водяной знак перед дедупликацией на размер окна. Но после дедупликации мне нужно снова вызвать withWatermark () установить водяной знак на настоящий водяной знак. Будет ли установка водяного знака снова вступать в силу?
Большое спасибо!