hui zhong 20 ноября 2018 1

Как использовать Spark с Watermark SQL вместо набора данных API

hui zhong / 20 ноября 2018

В документе для структурированной потоковой передачи используйте withWatermark в API набора данных следующим образом:

Dataset<Row> windowedCounts = words
.withWatermark("timestamp", "10 minutes")
.groupBy(
    functions.window(words.col("timestamp"), "10 minutes", "5 minutes"),
    words.col("word"))
.count();

Но я не хочу использовать API набора данных, разве структурированное предложение Spark sql выглядит так:

select window dt,sum(ord_amount),count(1) from topic2 
group by window(update_time,'10 minutes', '5 minutes') 
**withwatermark(update_time,'60 minutes')**

...