Управляйте группами строк с помощью pandas .DataFrame.to_parquet - PullRequest
2 голосов
/ 29 января 2020

Чтобы прочитать файл паркета на несколько разделов, его следует сохранить с использованием групп строк (см. Как прочитать один большой файл паркета на несколько разделов с помощью dask / dask-cudf? ). Документация pandas описывает разбиение столбцов , документация pyarrow описывает, как писать несколько групп строк . Используя метод pandas DataFrame .to_parquet, могу ли я связать возможность записи нескольких групп строк или она всегда будет записывать в один раздел? Если да, то как?

Хотя набор данных небольшой (в настоящее время только 3 ГБ), я хочу прочитать в несколько разделов , чтобы при последующей обработке с использованием dask использовалось несколько ядер (я могу переразбить , но это создает дополнительные издержки) (и я мог бы поработать с наборами данных размером около 10 ГБ позже, все еще маленькими, но слишком большими для оперативной памяти).

1 Ответ

0 голосов
/ 29 апреля 2020

Вы можете просто предоставить ключевое слово аргумент row_group_size при использовании pyarrow. Обратите внимание, что pyarrow является механизмом по умолчанию.

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...