Question

Я пытаюсь обработать большой файл (5 ГБ) в ОЗУ, но получаю сообщение об ошибке «Недостаточно памяти».Есть ли способ обработать файл паркета кусками, как в pandas.read_csv?

import pyarrow.parquet as pq

    def main():
        df = pq.read_table('./data/train.parquet').to_pandas()            

    main()

Wes McKinney · Answer 1 · 26 декабря 2018

Пока нет, но есть проблемы, связанные с добавлением этой опции (см. https://issues.apache.org/jira/browse/ARROW-3771, другие).Обратите внимание, что использование памяти будет значительно улучшено в следующем выпуске 0.12.

В то же время вы можете использовать pyarrow.parquet.ParquetFile и метод read_row_group для чтения одной группы строк за раз.

Есть ли в pandas.read_csv эквивалент аргумента chunksize в виде пирообразного символа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли в pandas.read_csv эквивалент аргумента chunksize в виде пирообразного символа?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы