Загрузка набора данных объемом 8,9 ГБ с Google Drive в Google Colab? - PullRequest
0 голосов
/ 12 января 2019

Я работаю над огромным набором лабораторных данных и хочу знать, как загрузить набор данных объемом 8,9 ГБ с моего диска Google в файл Google Colab. Ошибка, которую он показывает, остановлена ​​во время выполнения, перезапускает его.

Я уже пробовал chunksize, nrows, na_filter и dask. Может быть проблема в их реализации, хотя. Если бы вы могли объяснить мне, как его использовать. Я прилагаю свой оригинальный код ниже.

import pandas as pd

!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

id = '1M4tregypJ_HpXaQCIykyG2lQtAMR9nPe'
downloaded = drive.CreateFile({'id':id}) 
downloaded.GetContentFile('Filename.csv')  
df = pd.read_csv('Filename.csv')

df.head()

Если вы предлагаете какой-либо из методов, которые я уже попробовал, сделайте это с соответствующим и рабочим кодом.

1 Ответ

0 голосов
/ 13 января 2019

Проблема, вероятно, от pd.read_csv('Filename.csv').

Файл CSV объемом 8,9 ГБ займет более 13 ГБ ОЗУ. Вы не должны загружать весь файл в память, а работать постепенно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...