Как прочитать несколько файлов .parquet из нескольких каталогов в один pandas фрейм данных? - PullRequest
1 голос
/ 15 января 2020

Мне нужно прочитать файлы паркета из нескольких каталогов.

, например,

 Dir---
          |
           ----dir1---
                      |
                       .parquet
                       .parquet
          |
           ----dir2---
                      |
                       .parquet
                       .parquet
                       .parquet

Есть ли способ прочитать эти файлы в один pandas фрейм данных?

примечание: все файлы паркета были созданы с использованием pyspark.

1 Ответ

2 голосов
/ 15 января 2020

Используйте read_parquet в списках и concat со всеми файлами, сгенерированными glob с ** (python 3.5+ ):

files = glob.glob('Dir/**/*.parquet')
df = pd.concat([pd.parquet(fp) for fp in files])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...