Информация об использовании PyArrow для чтения файла Parquet из корзины S3 в кадр данных Pandas приведена здесь: https://arrow.apache.org/docs/python/parquet.html
import pyarrow.parquet as pq
import s3fs
dataset = pq.ParquetDataset('s3://<s3_path_to_folder_or_file>',
filesystem=s3fs.S3FileSystem(), filters=[('colA', '=', 'some_value'), ('colB', '>=', some_number)])
table = dataset.read()
df = table.to_pandas()
Я предпочитаю этот способ чтения Parquet из S3, потому что он поощряет использование разделов Parquet через параметр filter , но есть ошибка, влияющая на этот подход https://issues.apache.org/jira/browse/ARROW-2038.