Чтение потоковой передачи из темы кафки, где данные имеют метку времени.Эти данные могут иметь будущие или прошлые временные метки.Есть ли способ получить количество поступающих данных за день?Я попытался преобразовать timestamp
в date
, а затем агрегировать на date
и получить sum
как count
.Это не похоже на работу.
sourceDataset
.withWatermark("timestamp", watermarkInterval)
.select(
col("timestamp").cast("date")
)
.groupBy(
functions.window(col("date"), windowInterval)
).sum().as("count")
;