Как открыть несколько файлов паркета в S3 по дате - PullRequest
0 голосов
/ 07 декабря 2018

допустим, у меня в S3 есть репозиторий, содержащий эти папки

s3://tmp/ 

PRE ds=2018-12-05/
PRE ds=2018-12-06/
PRE ds=2018-12-07/

Внутри этих папок есть несколько файлов паркетных файлов.

Вопрос в том, как открыть две последние даты.и динамически добавить их в один файл?

tmp1 = spark.read.parquet('s3://tmp/ds=2018-12-06/')
tmp2 = spark.read.parquet('s3://tmp/ds=2018-12-07/')

tmp3=tmp1.unionAll(tmp2)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...