Какова производительность федеративных запросов BigQuery? - PullRequest
0 голосов
/ 20 апреля 2020

Я перепроектирую сервис, чтобы можно было искать большие наборы данных с помощью BigQuery. Первоначально я собирался настроить процесс для потоковой передачи данных из Cloud SQL в BigQuery каждый вечер, но мне стало известно о федеративных запросах на этапе исследования. Возможно, я упустил что-то очевидное, но, похоже, я не могу найти ничего особенного, если федеративные запросы BigQuery столь же эффективны, как и обычные запросы BigQuery. Похоже, что основное внимание уделяется проблеме хранения данных в нескольких системах и федеративных запросах, что облегчает объединение MySQL (или Postgres) данных с данными BigQuery.

Используют ли федеративные запросы все или большую часть преимущества BigQuery (использование тысяч машин для сканирования) или это невозможно? Google говорит: «Может ли работать не так хорошо, как запрос данных, хранящихся в таблицах BigQuery», но кто-нибудь использовал это и обнаружил, что он близок или похож?

1 Ответ

2 голосов
/ 20 апреля 2020

Производительность ограничена емкостью вашего экземпляра Cloud SQL. Это твое узкое место.

Конечно, вы уже прочитали это , но, собирая информацию из разных разделов, вы видите, что на самом деле происходит следующее.

BigQuery отправит запрос на выполнение в ваш экземпляр Cloud SQL. Результаты запроса будут прочитаны BigQuery и сохранены во временной таблице.

Имейте в виду, это означает, что вы загружаете свой экземпляр Cloud SQL, а также вам нужно читать байты (и платить за них) в BigQuery.

Это явно отличается от использования одного из коммерческих инструментов, таких как StitchData или Fivetran, для репликации данных Cloud SQL в BigQuery и , а затем , запрашивающих их непосредственно в BigQuery.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...