pandas to_parquet: очистка существующего каталога перед записью - PullRequest
1 голос
/ 29 марта 2020

Я бы хотел понять, как записать sh в существующее хранилище паркета.

В настоящее время я записываю кадр данных pandas в каталог паркета следующим образом:

df = pandas.DataFrame({...})
df.to_parquet('/datastore/data1/', engine='pyarrow', partition=['date'])

Однако, если я читаю эти данные обратно, добавляю несколько столбцов и записываю их обратно, они записываются в новый файл в те же подкаталоги (т.е. /datastore/data1/date1/).

Как я могу удалить исходные данные перед записью в них? (или я должен просто удалить всю структуру каталогов до записи?). Я хотел бы думать, что есть более простой способ сделать это, вместо того, чтобы не забывать вызывать remove перед каждым to_parquet.

Любые предложения будут полезны. Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...