Question

Скажем, у меня есть пандас DataFrame df, который я хотел бы сохранить на диске как набор данных с использованием паркета Pyarrow, я бы сделал следующее:
table = pyarrow.Table.from_pandas(df) pyarrow.parquet.write_to_dataset(table, root_path=some_path, partition_cols=['a',]) На диске набор данных будет выглядеть примерно так:some_path├── a = 1____ ├── 4498704937d84fe5abebb3f06515ab2d.parquet├── a = 2____ ├── 8bcfaed8986c4bdba587aaaee532370c.parquet

В: Можно ли как-то переопределить автоматическое назначение длинного UUID в качестве имени файла во время записи набора данных ?Моя цель - иметь возможность перезаписывать набор данных на диске, когда у меня новая версия df.В настоящее время, если я попытаюсь снова записать набор данных, другой новый файл с уникальным именем [UUID] .parquet будет помещен рядом со старым, с теми же избыточными данными.

Можно ли переопределить автоматическое назначение uuid для имен файлов при записи наборов данных с pyarrow.parquet?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Можно ли переопределить автоматическое назначение uuid для имен файлов при записи наборов данных с pyarrow.parquet?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы