Перезаписать файл паркета пиарроу в S3 - PullRequest
0 голосов
/ 30 августа 2018

Я пытаюсь перезаписать мои файлы паркета пиарроу, которые есть в S3. Я видел документацию и ничего не нашел.

Вот мой код:

from s3fs.core import S3FileSystem
import pyarrow as pa
import pyarrow.parquet as pq

s3 = S3FileSystem(anon=False)
output_dir = "s3://mybucket/output/my_table"

my_csv = pd.read_csv(file.csv)
my_table = pa.Table.from_pandas(my_csv , preserve_index=False)

pq.write_to_dataset(my_table, 
                    output_dir,
                    filesystem=s3,
                    use_dictionary=True,
                    compression='snappy')

Есть ли что-то вроде mode = "overwrite" в функции write_to_dataset?

1 Ответ

0 голосов
/ 23 мая 2019

Извините, такой опции пока нет, но я обхожу ее, используя boto3 для удаления файлов перед их записью.

import boto3
resource = boto3.resource('s3')
resource.Bucket('mybucket').objects.filter(Prefix='output/my_table').delete()
...