PySpark: чтение нескольких файлов XML (список путей s3) в фрейме данных Spark - PullRequest
0 голосов
/ 07 августа 2020

Как следует из вопроса, у меня есть список путей s3 в списке

s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]

Я использую PySpark и хочу узнать, как я могу загрузить все эти XML файлы в фрейм данных вместе? Что-то похожее на пример, показанный ниже.

df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)

Я могу прочитать один файл, но хочу найти лучший способ загрузить все файлы.

1 Ответ

0 голосов
/ 07 августа 2020

Просто распаковать список

s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]

df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(*s3_paths)
...