Question

Я пытаюсь загрузить файлы с данными за 2015-2020 годы в pyspark. Я использую регулярные выражения.

Все регулярные выражения проверялись на сайте онлайн. Однако, когда я использую их в pyspark, это показывает ошибки. Похоже, hdfs не любит скобки. Я пробовал разные варианты

# .load("hdfs:///data/ghcnd/daily/20(1[5-9]|20).csv.gz")

# .load("hdfs:///data/ghcnd/daily/20(15|16|17|18|19|20).csv.gz")

Как правильно их записать, чтобы я мог загружать данные из файлов с 2015 по 2020 год?

Shu · Answer 1 · 03 апреля 2020

Попробуйте использовать фигурные скобки {} и сохраните все свои значения.

.load("hdfs:///data/ghcnd/daily/2020{15,16,17}.csv.gz")

Example:

Чтение 2015,2016 Файлы

spark.read.csv("/tmp/20{15,16}.csv").show()
#+----+
#| _c0|
#+----+
#|2015|
#|2016|
#+----+

$cat 2015.csv
2015
$cat 2016.csv
2016

не может читать файлы на основе искры регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

не может читать файлы на основе искры регулярных выражений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы