Я бы хотел понять, как записать sh в существующее хранилище паркета.
В настоящее время я записываю кадр данных pandas в каталог паркета следующим образом:
df = pandas.DataFrame({...})
df.to_parquet('/datastore/data1/', engine='pyarrow', partition=['date'])
Однако, если я читаю эти данные обратно, добавляю несколько столбцов и записываю их обратно, они записываются в новый файл в те же подкаталоги (т.е. /datastore/data1/date1/).
Как я могу удалить исходные данные перед записью в них? (или я должен просто удалить всю структуру каталогов до записи?). Я хотел бы думать, что есть более простой способ сделать это, вместо того, чтобы не забывать вызывать remove перед каждым to_parquet.
Любые предложения будут полезны. Спасибо!