Есть ли опция с sparksession.read () для кэширования при загрузке?Я читаю XML-файлы из s3, и он сначала сканирует файлы, чтобы получить схему.Так как он все равно читает файлы, я бы предпочел просто загрузить его, чтобы он считывал все файлы из s3 только один раз.
Есть ли способ сделать это?
Я уже искалкаждая комбинация «spark», «cache», «load» и «read» и имеет глубину не менее двух страниц.
sparkSession.read().format("com.databricks.spark.xml")
.load("s3a://<your path here>")