Есть ли способ кеширования при загрузке? - PullRequest
2 голосов
/ 22 апреля 2019

Есть ли опция с sparksession.read () для кэширования при загрузке?Я читаю XML-файлы из s3, и он сначала сканирует файлы, чтобы получить схему.Так как он все равно читает файлы, я бы предпочел просто загрузить его, чтобы он считывал все файлы из s3 только один раз.

Есть ли способ сделать это?

Я уже искалкаждая комбинация «spark», «cache», «load» и «read» и имеет глубину не менее двух страниц.

sparkSession.read().format("com.databricks.spark.xml")
  .load("s3a://<your path here>")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...