Скажем, у меня есть пандас DataFrame df
, который я хотел бы сохранить на диске как набор данных с использованием паркета Pyarrow, я бы сделал следующее:
table = pyarrow.Table.from_pandas(df)
pyarrow.parquet.write_to_dataset(table, root_path=some_path, partition_cols=['a',])
На диске набор данных будет выглядеть примерно так:some_path├── a = 1____ ├── 4498704937d84fe5abebb3f06515ab2d.parquet├── a = 2____ ├── 8bcfaed8986c4bdba587aaaee532370c.parquet
В: Можно ли как-то переопределить автоматическое назначение длинного UUID в качестве имени файла во время записи набора данных ?Моя цель - иметь возможность перезаписывать набор данных на диске, когда у меня новая версия df
.В настоящее время, если я попытаюсь снова записать набор данных, другой новый файл с уникальным именем [UUID] .parquet будет помещен рядом со старым, с теми же избыточными данными.