Есть ли способ в Pyarrow запросить значения разделов набора данных паркета? - PullRequest
0 голосов
/ 29 ноября 2018

Например, у меня есть набор данных, похожий на этот:

dataset
    ├── a=1
    │    └── 1.parquet
    ├── a=2
    │    └── 2.parquet
    ├── a=3
         └── 3.parquet

, и он загружается как dataset = pyarrow.parquet.ParquetDataset('./dataset') Как запросить доступные записи раздела "a", не читая весь набор данныхв память?Благодаря ~

1 Ответ

0 голосов
/ 30 ноября 2018

См. Атрибут pieces для ParquetDataset.Атрибут partition_keys каждого ParquetDatasetPiece даст вам значение каждого ключа раздела.Если у вас есть идеи об API, чтобы упростить эту задачу, откройте проблему JIRA в Apache Arrow.

См. Также https://issues.apache.org/jira/browse/ARROW-1956 о чтении определенных частей многораздельного набора данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...