Question

допустим, у меня в S3 есть репозиторий, содержащий эти папки

s3://tmp/ 

PRE ds=2018-12-05/
PRE ds=2018-12-06/
PRE ds=2018-12-07/

Внутри этих папок есть несколько файлов паркетных файлов.

Вопрос в том, как открыть две последние даты.и динамически добавить их в один файл?

tmp1 = spark.read.parquet('s3://tmp/ds=2018-12-06/')
tmp2 = spark.read.parquet('s3://tmp/ds=2018-12-07/')

tmp3=tmp1.unionAll(tmp2)

Как открыть несколько файлов паркета в S3 по дате

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.