Question

У меня есть папка с файлами, похожими на -

./env_california_0100.xml
./env_california_0200.xml
./env_california_0300.xml
./env_california_0400.xml
./env_0100.xml
./env_0200.xml
./env_0300.xml
./env_0400.xml

с использованием pyspark. Если я хочу прочитать файлы, имена которых содержат строку 'california', то я бы использовал

df=spark.read.format("com.databricks.spark.xml").option("rowTag","someTag").load("/some_folder/*california*.xml")

Но как читать файлы, у которых нет строки 'california'?

EasyOdoo · Answer 1 · 07 октября 2019

Используйте glob для извлечения списка файлов, затем распакуйте этот список в вызове загрузки:

   .load(*glob.glob( "/some_folder/*[!california]*.xml"))

Поскольку мы можем загрузить несколько файлов, как это: .load(path1,path2,....)

Чтение файлов из папки с именами, не содержащей строки, используя PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение файлов из папки с именами, не содержащей строки, используя PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы