Простой способ справиться с плохой структурой папок для разделов в Apache Spark - PullRequest
1 голос
/ 13 февраля 2020

Часто данные доступны с такой структурой папок, как

2000-01-01/john/smith

, а не раздел Hive. Spe c,

date=2000-01-01/first_name=john/last_name=smith

Spark (и pyspark) могут читать легко разбивать данные на части при использовании структуры папок Hive, но с «плохой» структурой папок это становится сложным и требует регулярных выражений и прочего.

Существует ли более простой способ справиться со структурой папок, не относящихся к кустам, для Спарк?

...