Чтение больших данных из файла паркета - PullRequest
0 голосов
/ 20 января 2020

Я пытаюсь прочитать 4 секционированных файла паркета из s3, преобразовать их в кадры данных и добавить позже. Общее количество записей должно быть более 2,5 миллионов, но никогда не читается более 1 миллиона записей. Когда я пытаюсь прочитать файл по отдельности, он читает 25000 записей из каждого файла.

ниже приведены коды для чтения всех файлов одновременно, а также для чтения отдельных файлов:

import s3fs
import boto3
import io
import pandas as pd
from dask import dataframe as dd

s3 = s3fs.S3FileSystem()

'''reading all files at once'''
pandas_dataframe = pq.ParquetDataset('bucket/folder', filesystem=s3).read_pandas().to_pandas()
print(pandas_dataframe)

'''reading from each file'''
buffer = io.BytesIO()
s3 = boto3.resource("s3")
object = s3.Object('path,'filename')
object.download_fileobj(buffer)
df = pd.read_parquet(buffer)
print(df)

что я могу сделать, чтобы прочитать все строки, присутствующие в файле паркета?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...