Часто данные доступны с такой структурой папок, как
2000-01-01/john/smith
, а не раздел Hive. Spe c,
date=2000-01-01/first_name=john/last_name=smith
Spark (и pyspark) могут читать легко разбивать данные на части при использовании структуры папок Hive, но с «плохой» структурой папок это становится сложным и требует регулярных выражений и прочего.
Существует ли более простой способ справиться со структурой папок, не относящихся к кустам, для Спарк?