Question

Я бы хотел понять, как записать sh в существующее хранилище паркета.

В настоящее время я записываю кадр данных pandas в каталог паркета следующим образом:

df = pandas.DataFrame({...})
df.to_parquet('/datastore/data1/', engine='pyarrow', partition=['date'])

Однако, если я читаю эти данные обратно, добавляю несколько столбцов и записываю их обратно, они записываются в новый файл в те же подкаталоги (т.е. /datastore/data1/date1/).

Как я могу удалить исходные данные перед записью в них? (или я должен просто удалить всю структуру каталогов до записи?). Я хотел бы думать, что есть более простой способ сделать это, вместо того, чтобы не забывать вызывать remove перед каждым to_parquet.

Любые предложения будут полезны. Спасибо!

pandas to_parquet: очистка существующего каталога перед записью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pandas to_parquet: очистка существующего каталога перед записью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы