Загрузка большого набора данных (10 ГБ +) в ноутбуки Jupyter / GCP AI Notebooks - PullRequest
0 голосов
/ 27 февраля 2020

TL; DR:

Как переместить большой набор данных (более 30 ГБ) из BigQuery в ноутбуки Jupyter (AI Notebook в GCP)

Проблема:

У меня есть набор данных ~ 30 ГБ (временной ряд), который я хочу загрузить в ноутбуки Jupyter (AI Notebook), чтобы протестировать модель NN перед ее развертыванием на своем собственном сервере. Набор данных уже построен в Bigquery, и я переместил его с использованием подстановочных знаков (100 частей) в хранилище.

Что я сделал:

Однако я застрял, пытаясь загрузить его в Блокнот:

1) Bigquery не позволяет запрашивать напрямую, тоже слишком медленно

2) Не удается загрузить его и загрузить локально

2) Переместил его в хранилище в формате avro, но не смог запросить его с использованием подстановочных знаков :

from google.cloud import storage
from io import BytesIO
client = storage.Client()

bucket = "xxxxx"
file_path = "path"

blob = storage.blob.Blob(file_path,bucket)

content = blob.download_as_string()

train = pd.read_csv(BytesIO(content))

Чего мне не хватает? Должен ли я как-то превратить модель в функцию и использовать Dataflow?

Best

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...