Я пытаюсь прочитать 4 секционированных файла паркета из s3, преобразовать их в кадры данных и добавить позже. Общее количество записей должно быть более 2,5 миллионов, но никогда не читается более 1 миллиона записей. Когда я пытаюсь прочитать файл по отдельности, он читает 25000 записей из каждого файла.
ниже приведены коды для чтения всех файлов одновременно, а также для чтения отдельных файлов:
import s3fs
import boto3
import io
import pandas as pd
from dask import dataframe as dd
s3 = s3fs.S3FileSystem()
'''reading all files at once'''
pandas_dataframe = pq.ParquetDataset('bucket/folder', filesystem=s3).read_pandas().to_pandas()
print(pandas_dataframe)
'''reading from each file'''
buffer = io.BytesIO()
s3 = boto3.resource("s3")
object = s3.Object('path,'filename')
object.download_fileobj(buffer)
df = pd.read_parquet(buffer)
print(df)
что я могу сделать, чтобы прочитать все строки, присутствующие в файле паркета?