Я хотел бы добавить столбец в каждый DataFrame, загруженный из паркетных файлов с помощью Spark SQL, чтобы добавить подстроку пути к файлу, а затем сделать его одним DataFrame.
Например , при загрузке .../subfolder1/my_parquet_file1.parquet
и .../subfolder2/my_parquet_file2.parquet
я хочу иметь следующий окончательный DataFrame:
col1 | col2 | subfolder
------------------------
aaa | bbb | subfolder1
ccc | ddd | subfolder1
eee | fff | subfolder2
ggg | hhh | subfolder2
Следующий код позволяет загружать все файлы в списке путей:
sqlContext.read.schema(schema).parquet(paths: _*)
Но, имея непосредственно последний DataFrame, я не могу добавить подпапку в зависимости от того, откуда взялась каждая строка.
Есть ли способ сделать это без последовательной загрузки каждого файла?