Как зациклить большой файл паркета с генераторами в python? - PullRequest
0 голосов
/ 08 июня 2018

Можно ли открывать файлы паркета и выполнять итерацию построчно, используя генераторы?Это необходимо для того, чтобы избежать загрузки всего файла паркета в память.

Содержимое файла - pandas DataFrame.

1 Ответ

0 голосов
/ 11 июня 2018

Вы не можете выполнять итерацию по строке, так как она не так, как она хранится.Вы можете перебирать группы строк следующим образом:

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
for df in pf.iter_row_groups():
    process sub-data-frame df
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...