Когда я помещаю объект в python, я могу установить метаданные одновременно. Пример:
self.s3_client.put_object(
Bucket=self._bucket,
Key=key,
Body=body,
ContentEncoding=self._compression,
ContentType="application/json",
ContentLanguage="en-US",
Metadata={'other-key':'value'}
)
Кажется, что и pyarrow, и fastparquet не позволяют мне передавать эти конкретные ключевые слова, несмотря на то, что pandas документация говорит, что дополнительные ключевые слова пропущены.
Это сохраняет данные так, как я хочу, но я не могу прикрепить метаданные с любым синтаксисом, который я пробую.
df.to_parquet(s3_path, compression='gzip')
Если был простой способ сжать паркет и преобразовать его это в байтовый поток.
Не хотел бы записать файл дважды (либо локально, затем передать на AWS, либо дважды на AWS)