TL; DR:
Как переместить большой набор данных (более 30 ГБ) из BigQuery в ноутбуки Jupyter (AI Notebook в GCP)
Проблема:
У меня есть набор данных ~ 30 ГБ (временной ряд), который я хочу загрузить в ноутбуки Jupyter (AI Notebook), чтобы протестировать модель NN перед ее развертыванием на своем собственном сервере. Набор данных уже построен в Bigquery, и я переместил его с использованием подстановочных знаков (100 частей) в хранилище.
Что я сделал:
Однако я застрял, пытаясь загрузить его в Блокнот:
1) Bigquery не позволяет запрашивать напрямую, тоже слишком медленно
2) Не удается загрузить его и загрузить локально
2) Переместил его в хранилище в формате avro, но не смог запросить его с использованием подстановочных знаков :
from google.cloud import storage
from io import BytesIO
client = storage.Client()
bucket = "xxxxx"
file_path = "path"
blob = storage.blob.Blob(file_path,bucket)
content = blob.download_as_string()
train = pd.read_csv(BytesIO(content))
Чего мне не хватает? Должен ли я как-то превратить модель в функцию и использовать Dataflow?
Best