Чтобы прочитать файл паркета на несколько разделов, его следует сохранить с использованием групп строк (см. Как прочитать один большой файл паркета на несколько разделов с помощью dask / dask-cudf? ). Документация pandas описывает разбиение столбцов , документация pyarrow описывает, как писать несколько групп строк . Используя метод pandas DataFrame .to_parquet, могу ли я связать возможность записи нескольких групп строк или она всегда будет записывать в один раздел? Если да, то как?
.to_parquet
Хотя набор данных небольшой (в настоящее время только 3 ГБ), я хочу прочитать в несколько разделов , чтобы при последующей обработке с использованием dask использовалось несколько ядер (я могу переразбить , но это создает дополнительные издержки) (и я мог бы поработать с наборами данных размером около 10 ГБ позже, все еще маленькими, но слишком большими для оперативной памяти).
Вы можете просто предоставить ключевое слово аргумент row_group_size при использовании pyarrow. Обратите внимание, что pyarrow является механизмом по умолчанию.
row_group_size
df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")