Как указать количество разделов при записи Parquet-файла? - PullRequest
0 голосов
/ 10 июля 2020

parquet_writer.write_table (table)

Эта строка записывает один файл. В документации сказано: Это создает один файл Parquet. На практике набор данных Parquet может состоять из множества файлов во многих каталогах. Мы можем прочитать один файл обратно с помощью read_table:

Есть ли способ для PyArrow создать паркетный файл в виде каталога с несколькими файлами частей в нем, например:

ls -lrt permit-inspections-recent.parquet  
...  14:53 part-00001-bd5d902d-fac9-4e03-b63e-6a8dfc4060b6.snappy.parquet  
...  14:53 part-00000-bd5d902d-fac9-4e03-b63e-6a8dfc4060b6.snappy.parquet

С уважением, Я sh

1 Ответ

0 голосов
/ 22 июля 2020

Вам нужно указать Стрелке, как разбивать данные. Это делается с помощью аргумента partition_cols. Смотрите здесь: https://arrow.apache.org/docs/python/generated/pyarrow.parquet.write_to_dataset.html

...