GCP: где планировать подписчика PubSub, который пишет в BigQuery - PullRequest
0 голосов
/ 25 ноября 2018

Мне нужно написать в BigQuery из PubSub на Python.Я проверил некоторый асинхронный код подписчика, и он отлично работает.Но это должно выполняться постоянно, и я не уверен на 100%, где это можно запланировать.Я использовал Cloud Composer (Airflow), но он не выглядит идеально подходящим, и похоже, что поток данных - это тот, который рекомендован GCP?Это правильно?

Или есть способ запустить это из Cloud Composer надежно?Я думаю, что могу запустить его один раз, но хочу убедиться, что он снова запустится на случай, если по какой-то причине произойдет сбой.

1 Ответ

0 голосов
/ 06 мая 2019

Два лучших способа достижения этой цели - использовать Облачные функции или Облачный поток данных .Для облачных функций вы должны настроить триггер в теме Pub / Sub, а затем в своем коде записать в BigQuery.Это будет похоже на учебник о потоковой передаче из облачного хранилища в BigQuery , за исключением того, что входными данными будут сообщения Pub / Sub.Для Dataflow вы можете использовать один из предоставленных Google шаблонов с открытым исходным кодом для записи сообщений Pub / Sub в BigQuery .

Облачный поток данных, вероятно, будет лучше подходить, если ваша пропускная способность высока(тысячи сообщений в секунду) и соответствует.Если у вас низкая или нечастая пропускная способность, лучше всего подойдут облачные функции.Любое из этих решений будет работать постоянно и отправлять сообщения в BigQuery, когда они будут доступны.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...