У меня есть паркетные каталоги, названные так:
parquetNames = [NAME1,NAME1_MS,NAME2, NAME2_MQ]
Я хочу загрузить только паркет в NAME1
и NAME2
, но у меня возникают проблемы с негативным прогнозом и чередованием.Если я это сделаю:
s3BaseDir+'NAME*'
, то, как и ожидалось, все паркетные каталоги загружены.С здесь и здесь Я мог бы сделать отрицательный прогноз с чередованием, например, чтобы избежать либо полных подстрок "_MS"
, либо "_MQ"
:
s3BaseDir+'NAME*(?!{_MS,_MQ})'
Но яЯ получаю
AnalysisException: 'Path does not exist'
.
Кажется, буквально он принимает более сложное регулярное выражение.
Можно ли в pyspark spark.read.parquet
выполнять отрицательные запросы?Возможно ли это сочетать с чередованием?Как?