Как я могу обновить таблицу Hive / Impala из Spark Structured Streaming? - PullRequest
0 голосов
/ 18 мая 2018

в настоящее время моя структурированная потоковая передача Spark работает следующим образом (отображается только часть «Мойка»):

//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
  .format("parquet")
  .trigger(Trigger.ProcessingTime("15 seconds"))
  .partitionBy("date", "hour")
  .option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
  .option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
  .outputMode("append")
  .start()

Приведенный выше код генерирует файлы .parquet в каталоге, определенном как «путь».

IЯ определил внешнюю таблицу Impala, которая читает по этому пути, но мне нужно, чтобы таблица обновлялась или обновлялась после каждого добавления файлов паркета.

Как этого достичь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...