Question

Я использую Spark со Scala, и у меня есть каталог, в котором у меня есть несколько файлов.

В этом каталоге у меня есть файлы Parquet, созданные Spark, и другие файлы, созданные Spark Streaming.

При потоковой передаче Spark создается каталог _spark_metadata .

Проблема, с которой я сталкиваюсь, заключается в том, что при чтении каталога с помощью Spark (sparksession.read.load) он читает только данныегенерируется потоковой передачей Spark, например, если другие данные не существуют.

Кто-нибудь знает, как решить эту проблему, я думаю, что должно быть свойство, которое заставляет Spark игнорировать каталог spark_metadata .

Спасибо за помощь

Beryllium · Answer 1 · 04 апреля 2019

У меня та же проблема (Spark 2.4.0), и единственный известный мне способ - это загрузить файлы, используя маску / шаблон, что-то вроде этого

sparksession.read.format("parquet").load("/path/*.parquet")

Насколько я знаюзнаю, что невозможно игнорировать этот каталог .Если он существует, Spark его рассмотрит.

_spark_metadata вызывает проблемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

_spark_metadata вызывает проблемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы