Я использую Spark со Scala, и у меня есть каталог, в котором у меня есть несколько файлов.
В этом каталоге у меня есть файлы Parquet, созданные Spark, и другие файлы, созданные Spark Streaming.
При потоковой передаче Spark создается каталог _spark_metadata .
Проблема, с которой я сталкиваюсь, заключается в том, что при чтении каталога с помощью Spark (sparksession.read.load
) он читает только данныегенерируется потоковой передачей Spark, например, если другие данные не существуют.
Кто-нибудь знает, как решить эту проблему, я думаю, что должно быть свойство, которое заставляет Spark игнорировать каталог spark_metadata .
Спасибо за помощь