Question

Чтобы прочитать файл паркета на несколько разделов, его следует сохранить с использованием групп строк (см. Как прочитать один большой файл паркета на несколько разделов с помощью dask / dask-cudf? ). Документация pandas описывает разбиение столбцов , документация pyarrow описывает, как писать несколько групп строк . Используя метод pandas DataFrame .to_parquet, могу ли я связать возможность записи нескольких групп строк или она всегда будет записывать в один раздел? Если да, то как?

Хотя набор данных небольшой (в настоящее время только 3 ГБ), я хочу прочитать в несколько разделов , чтобы при последующей обработке с использованием dask использовалось несколько ядер (я могу переразбить , но это создает дополнительные издержки) (и я мог бы поработать с наборами данных размером около 10 ГБ позже, все еще маленькими, но слишком большими для оперативной памяти).

Julian_W · Answer 1 · 29 апреля 2020

Вы можете просто предоставить ключевое слово аргумент row_group_size при использовании pyarrow. Обратите внимание, что pyarrow является механизмом по умолчанию.

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")

Управляйте группами строк с помощью pandas .DataFrame.to_parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Управляйте группами строк с помощью pandas .DataFrame.to_parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы