не может читать файлы на основе искры регулярных выражений - PullRequest
0 голосов
/ 03 апреля 2020

Я пытаюсь загрузить файлы с данными за 2015-2020 годы в pyspark. Я использую регулярные выражения.

Все регулярные выражения проверялись на сайте онлайн. Однако, когда я использую их в pyspark, это показывает ошибки. Похоже, hdfs не любит скобки. Я пробовал разные варианты

# .load("hdfs:///data/ghcnd/daily/20(1[5-9]|20).csv.gz")

# .load("hdfs:///data/ghcnd/daily/20(15|16|17|18|19|20).csv.gz")

Как правильно их записать, чтобы я мог загружать данные из файлов с 2015 по 2020 год?

1 Ответ

0 голосов
/ 03 апреля 2020

Попробуйте использовать фигурные скобки {} и сохраните все свои значения.

.load("hdfs:///data/ghcnd/daily/2020{15,16,17}.csv.gz")

Example:

Чтение 2015,2016 Файлы

spark.read.csv("/tmp/20{15,16}.csv").show()
#+----+
#| _c0|
#+----+
#|2015|
#|2016|
#+----+

$cat 2015.csv
2015
$cat 2016.csv
2016
...