Есть ли в pandas.read_csv эквивалент аргумента chunksize в виде пирообразного символа? - PullRequest
0 голосов
/ 25 декабря 2018

Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно памяти».Есть ли способ обработать файл паркета кусками, как в pandas.read_csv?

import pyarrow.parquet as pq

    def main():
        df = pq.read_table('./data/train.parquet').to_pandas()            

    main()   

1 Ответ

0 голосов
/ 26 декабря 2018

Пока нет, но есть проблемы, связанные с добавлением этой опции (см. https://issues.apache.org/jira/browse/ARROW-3771, другие).Обратите внимание, что использование памяти будет значительно улучшено в следующем выпуске 0.12.

В то же время вы можете использовать pyarrow.parquet.ParquetFile и метод read_row_group для чтения одной группы строк за раз.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...