Как прочитать метаданные файла Parquet (имена столбцов с типами) из IBM COS в Python?
Единственный способ, который я нашел:
import pyarrow.parquet as pq
import s3fs
s3 = s3fs.S3FileSystem(anon=False, key='xxx', secret='xxx',
client_kwargs={'endpoint_url':
"https://s3-api.us-geo.objectstorage.softlayer.net"}
schema = pq.ParquetDataset("bucket_name/file", filesystem=s3).read().schema
Но он читает весь файл(Я думаю).
Может быть, существует другой подход для получения метаданных из файла Parquet, расположенного в IBM COS?
Если я использую
schema = pq.ParquetDataset("bucket_name/file", filesystem=s3).schema
Он возвращает разные типы данных.Для строк: BYTE_ARRAY
и для отметки времени: INT96
Странно ...