Python: Получить количество строк для ParquetDataset? - PullRequest
1 голос
/ 01 апреля 2020

Как получить количество строк набора данных ParquetDatset, структурированного в виде папки, содержащей несколько файлов паркета.

Я попытался

from pyarrow.parquet import ParquetDataset
a = ParquetDataset(path)
a.metadata
a.schema
a.commmon_metadata

Я хочу выяснить, общее количество строк без чтения набора данных, поскольку оно может быть довольно большим.

Какой лучший способ сделать это?

1 Ответ

2 голосов
/ 01 апреля 2020

Вам все равно придется прикасаться к каждому отдельному файлу, но, к счастью, Parquet сохраняет общее количество строк каждого файла в нижнем колонтитуле. Таким образом, вам нужно будет только прочитать метаданные каждого файла, чтобы выяснить его размер. Следующий код будет вычислять количество строк в ParquetDataset

nrows = 0
dataset = ParquetDataset(..)
for piece in dataset.pieces:
    nrows += piece.get_metadta().num_rows
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...