Я пытаюсь извлечь данные из набора данных Google BigQuery в память на экземпляре GC в том же регионе, но это занимает слишком много времени.Простой запрос с одним предложением WHERE занимает 10 минут.Я полагаю, что большая часть этих 10 минут тратится на загрузку данных из набора данных BigQuery в экземпляр GC, поскольку, когда я запускаю их из CLI, они запускаются менее чем за 20 секунд.
Пример CLI:
bq query "SELECT * FROM dataset.table where field1 = 'test'"
Это занимает около 20 секунд и обрабатывает 2-6 ГБ
Пример Python:
client = bigquery.Client()
dataset_ref = client.dataset('dataset')
query = ("SELECT * FROM dataset.table where field1 = 'test'")
query_job = client.query(query)
Это занимает около 10 минут.
API-интерфейс Python равен здесь .
Как быстро получить данные из BigQuery в память на экземпляре GC?