Лучший способ считывать данные из S3 в pandas - PullRequest
0 голосов
/ 05 мая 2020

У меня есть два файла CSV, один размером около 60 ГБ, а другой - около 70 ГБ в S3. Мне нужно загрузить оба CSV-файла в pandas фреймы данных и выполнить такие операции, как соединения и слияния данных.

У меня есть экземпляр EC2 с достаточным объемом памяти для загрузки обоих фреймов данных в память

Как лучше всего прочитать этот огромный файл из S3 в pandas фрейм данных?

Кроме того, после выполнения необходимых операций с фреймами данных выходной фрейм данных должен быть повторно -загружено на S3.

Каков наилучший способ загрузки огромного CSV-файла на S3?

1 Ответ

1 голос
/ 05 мая 2020

Для чтения из S3 вы можете сделать:

import pandas as pd

df = pd.read_csv('s3://bucket-name/file.csv')

Затем выполнить все соединения и слияния в этом фрейме данных и загрузить его обратно в S3:

df.to_csv('s3://bucket-name/file.csv', index=False)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...