в настоящее время моя структурированная потоковая передача Spark работает следующим образом (отображается только часть «Мойка»):
//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
.format("parquet")
.trigger(Trigger.ProcessingTime("15 seconds"))
.partitionBy("date", "hour")
.option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
.option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
.outputMode("append")
.start()
Приведенный выше код генерирует файлы .parquet в каталоге, определенном как «путь».
IЯ определил внешнюю таблицу Impala, которая читает по этому пути, но мне нужно, чтобы таблица обновлялась или обновлялась после каждого добавления файлов паркета.
Как этого достичь?