Zeppelin Spark Interpreter: отключить _spark_metadata при чтении данных HDFS, записанных Spark Structured Streaming - PullRequest
1 голос
/ 11 марта 2019

У нас есть поток, реализованный с помощью Spark Structured Streaming, записывающий в папку HDFS и, таким образом, создающий подпапку _spark_metadata, чтобы получить гарантированную однократную гарантию при записи в файловую систему.

У нас дополнительно есть режим, в котором мы повторно генерируем результаты потока для исторических данных в отдельной папке. После завершения повторной обработки мы копируем подпапки для повторной генерации в папке «normal-mode». Вы можете себе представить, что _spark_metadata папки «normal-mode» больше не обновляется, и это приводит к неправильному чтению этих данных в Zeppelin.

Есть ли способ отключить использование папки _spark_metadata при чтении с помощью spark из папки HDFS?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...