Как прочитать метаданные файла Parquet из IBM Cloud Object Storage в Python? - PullRequest
0 голосов
/ 16 октября 2018

Как прочитать метаданные файла Parquet (имена столбцов с типами) из IBM COS в Python?

Единственный способ, который я нашел:

           import pyarrow.parquet as pq
           import s3fs
           s3 = s3fs.S3FileSystem(anon=False, key='xxx', secret='xxx',
                   client_kwargs={'endpoint_url':
                                      "https://s3-api.us-geo.objectstorage.softlayer.net"}

           schema = pq.ParquetDataset("bucket_name/file", filesystem=s3).read().schema

Но он читает весь файл(Я думаю).

Может быть, существует другой подход для получения метаданных из файла Parquet, расположенного в IBM COS?

Если я использую

       schema = pq.ParquetDataset("bucket_name/file", filesystem=s3).schema

Он возвращает разные типы данных.Для строк: BYTE_ARRAY

и для отметки времени: INT96

Странно ...

1 Ответ

0 голосов
/ 16 октября 2018

Решено:

schema = pq.ParquetDataset(bucket, filesystem=s3).schema.to_arrow_schema()
...