Я пытаюсь загрузить файлы с данными за 2015-2020 годы в pyspark. Я использую регулярные выражения.
Все регулярные выражения проверялись на сайте онлайн. Однако, когда я использую их в pyspark, это показывает ошибки. Похоже, hdfs не любит скобки. Я пробовал разные варианты
# .load("hdfs:///data/ghcnd/daily/20(1[5-9]|20).csv.gz")
# .load("hdfs:///data/ghcnd/daily/20(15|16|17|18|19|20).csv.gz")
Как правильно их записать, чтобы я мог загружать данные из файлов с 2015 по 2020 год?