Question

Как следует из вопроса, у меня есть список путей s3 в списке

s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]

Я использую PySpark и хочу узнать, как я могу загрузить все эти XML файлы в фрейм данных вместе? Что-то похожее на пример, показанный ниже.

df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(s3_paths)

Я могу прочитать один файл, но хочу найти лучший способ загрузить все файлы.

Shubham Jain · Answer 1 · 07 августа 2020

Просто распаковать список

s3_paths = ["s3a://somebucket/1/file1.xml", "s3a://somebucket/3/file2.xml"]

df = spark.read.format("com.databricks.spark.xml").option("rowTag", "head").load(*s3_paths)

PySpark: чтение нескольких файлов XML (список путей s3) в фрейме данных Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PySpark: чтение нескольких файлов XML (список путей s3) в фрейме данных Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы