Question

в настоящее время моя структурированная потоковая передача Spark работает следующим образом (отображается только часть «Мойка»):

//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
  .format("parquet")
  .trigger(Trigger.ProcessingTime("15 seconds"))
  .partitionBy("date", "hour")
  .option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
  .option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
  .outputMode("append")
  .start()

Приведенный выше код генерирует файлы .parquet в каталоге, определенном как «путь».

IЯ определил внешнюю таблицу Impala, которая читает по этому пути, но мне нужно, чтобы таблица обновлялась или обновлялась после каждого добавления файлов паркета.

Как этого достичь?

Как я могу обновить таблицу Hive / Impala из Spark Structured Streaming?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как я могу обновить таблицу Hive / Impala из Spark Structured Streaming?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы