Как следует из вопроса, у меня есть список путей s3 в списке
s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]
Я использую PySpark и хочу узнать, как я могу загрузить все эти XML файлы в фрейм данных вместе? Что-то похожее на пример, показанный ниже.
df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)
Я могу прочитать один файл, но хочу найти лучший способ загрузить все файлы.