Question

У меня есть два файла CSV, один размером около 60 ГБ, а другой - около 70 ГБ в S3. Мне нужно загрузить оба CSV-файла в pandas фреймы данных и выполнить такие операции, как соединения и слияния данных.

У меня есть экземпляр EC2 с достаточным объемом памяти для загрузки обоих фреймов данных в память

Как лучше всего прочитать этот огромный файл из S3 в pandas фрейм данных?

Кроме того, после выполнения необходимых операций с фреймами данных выходной фрейм данных должен быть повторно -загружено на S3.

Каков наилучший способ загрузки огромного CSV-файла на S3?

Mayank Porwal · Answer 1 · 05 мая 2020

Для чтения из S3 вы можете сделать:

import pandas as pd

df = pd.read_csv('s3://bucket-name/file.csv')

Затем выполнить все соединения и слияния в этом фрейме данных и загрузить его обратно в S3:

df.to_csv('s3://bucket-name/file.csv', index=False)

Лучший способ считывать данные из S3 в pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ считывать данные из S3 в pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов