Google Cloud Dataflow Stream + Batch - PullRequest
       144

Google Cloud Dataflow Stream + Batch

0 голосов
/ 07 августа 2020

Я создаю инфраструктуру, в которой я хотел бы обрабатывать горячие и холодные данные отдельно. Для горячих данных я записываю свои данные в Cloud Spanner, а для холодных данных я хотел бы записать свои данные во что-то более постоянное, например BigQuery.

Я использую данные из потоковой передачи service, но я бы хотел воспользоваться механизмом кэширования BigQuery, что будет невозможно, если я буду постоянно передавать холодные данные в BigQuery. Моя проблема заключается в том, могу ли я соединить потоковый конвейер с пакетным конвейером и подключить потоковый конвейер к Spanner, а пакетный конвейер - к BigQuery.

Я могу представить что-то вроде записи холодных данных в Облачное хранилище и считывание данных в BigQuery с помощью задания cron, но есть ли лучший / собственный способ добиться разделения Stream + Batch?

1 Ответ

1 голос
/ 10 августа 2020

Хотя это правда, что Dataflow имеет пакетный и потоковый режимы выполнения, вы можете использовать потоковый режим, чтобы делать все, что вы можете делать в пакетном режиме (стоимость и масштабируемость могут отличаться). Поскольку ваш ввод - это поток, также известный как неограниченный источник данных, ваш конвейер будет работать в потоковом режиме автоматически.

Похоже, что метод FILE_LOADS записи в BigQuery может быть тем, что вы хотите, и вы можете использовать withTriggeringFrequency для управления частотой записи данных.

...