Как облако данных Google Dataflow читает из BigQuery с помощью Apache Beam? - PullRequest
0 голосов
/ 07 ноября 2018

Как результаты распределяются между работниками? Создается ли одна таблица с результатами запроса, и рабочие получают из нее страницы для чтения, или каждый сотрудник выполняет запрос и читает разные страницы или ... как?

1 Ответ

0 голосов
/ 07 ноября 2018

При чтении из BigQuery Dataflow на самом деле просто вызывает API экспорта BigQuery и выдает таблицу / запрос в GCS в виде набора защищенных файлов Avro. Как только файлы начинают поступать в GCS, работники потока данных начинают читать их параллельно. Как работа распределяется, т.е. какой работник читает, какой осколок / записи абстрагируется от вас и обрабатывается / управляется самой службой потока данных.

...