Я пытаюсь использовать окно структурированной потоковой передачи с помощью spark и kafka.Я использую окно для данных, не основанных на времени, поэтому я получаю эту ошибку:
'Non-time-based windows are not supported on streaming DataFrames/Datasets;;\nWindow
Вот мой код:
window = Window.partitionBy("input_id").orderBy("similarity")
outputDf = inputDf\
.crossJoin(ticketDf.withColumnRenamed("IDF", "old_IDF")) \
.withColumn("similarity", cosine_similarity_udf(col("IDF"), col("old_IDF"))) \
.withColumn("rank", rank().over(window)) \
.filter(col("rank") < 10)
Поэтому я ищу подсказку или ссылкуиспользовать окно для не временных данных ...