Question

Я работаю над огромным набором лабораторных данных и хочу знать, как загрузить набор данных объемом 8,9 ГБ с моего диска Google в файл Google Colab. Ошибка, которую он показывает, остановлена во время выполнения, перезапускает его.

Я уже пробовал chunksize, nrows, na_filter и dask. Может быть проблема в их реализации, хотя. Если бы вы могли объяснить мне, как его использовать. Я прилагаю свой оригинальный код ниже.

import pandas as pd

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

id = '1M4tregypJ_HpXaQCIykyG2lQtAMR9nPe'
downloaded = drive.CreateFile({'id':id}) 
downloaded.GetContentFile('Filename.csv')  
df = pd.read_csv('Filename.csv')

df.head()

Если вы предлагаете какой-либо из методов, которые я уже попробовал, сделайте это с соответствующим и рабочим кодом.

Korakot Chaovavanich · Answer 1 · 13 января 2019

Проблема, вероятно, от pd.read_csv('Filename.csv').

Файл CSV объемом 8,9 ГБ займет более 13 ГБ ОЗУ. Вы не должны загружать весь файл в память, а работать постепенно.

Загрузка набора данных объемом 8,9 ГБ с Google Drive в Google Colab?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка набора данных объемом 8,9 ГБ с Google Drive в Google Colab?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов