Размер файлов Parquet на диске и в памяти может варьироваться до величины.Паркет с использованием эффективных методов кодирования и сжатия для хранения столбцов.Когда вы загружаете эти данные в оперативную память, данные распаковываются в несжатом виде.Таким образом, для набора данных файлов размером 15 ГБ можно было бы использовать 150 ГБ ОЗУ.
Если вы не уверены, что это ваша проблема, загрузите один файл с помощью df = pandas.read_parquet
и проверьте егоиспользование памяти с df.memory_usage(deep=True)
.Это должно дать вам хорошее представление о масштабировании между диском и оперативной памятью всего набора данных.