Question

У нас есть поток, реализованный с помощью Spark Structured Streaming, записывающий в папку HDFS и, таким образом, создающий подпапку _spark_metadata, чтобы получить гарантированную однократную гарантию при записи в файловую систему.

У нас дополнительно есть режим, в котором мы повторно генерируем результаты потока для исторических данных в отдельной папке. После завершения повторной обработки мы копируем подпапки для повторной генерации в папке «normal-mode». Вы можете себе представить, что _spark_metadata папки «normal-mode» больше не обновляется, и это приводит к неправильному чтению этих данных в Zeppelin.

Есть ли способ отключить использование папки _spark_metadata при чтении с помощью spark из папки HDFS?

Zeppelin Spark Interpreter: отключить _spark_metadata при чтении данных HDFS, записанных Spark Structured Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Zeppelin Spark Interpreter: отключить _spark_metadata при чтении данных HDFS, записанных Spark Structured Streaming

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы