получение результатов BigQuery в память на экземпляре GC - PullRequest
0 голосов
/ 20 мая 2018

Я пытаюсь извлечь данные из набора данных Google BigQuery в память на экземпляре GC в том же регионе, но это занимает слишком много времени.Простой запрос с одним предложением WHERE занимает 10 минут.Я полагаю, что большая часть этих 10 минут тратится на загрузку данных из набора данных BigQuery в экземпляр GC, поскольку, когда я запускаю их из CLI, они запускаются менее чем за 20 секунд.

Пример CLI:

bq query "SELECT * FROM dataset.table where field1 = 'test'" 

Это занимает около 20 секунд и обрабатывает 2-6 ГБ

Пример Python:

client = bigquery.Client()
dataset_ref = client.dataset('dataset')
query = ("SELECT * FROM dataset.table where field1 = 'test'")
query_job = client.query(query)

Это занимает около 10 минут.

API-интерфейс Python равен здесь .

Как быстро получить данные из BigQuery в память на экземпляре GC?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...