В чем преимущество использования облачного паба / субсервиса Google в конвейере потоковой передачи? - PullRequest
1 голос
/ 29 марта 2020

Может кто-нибудь объяснить, в чем выгода от использования облачного паба / суб-сервиса Google в конвейере потоковой передачи?

Я видел один из примеров конвейера потоковой передачи событий, и он использовал pub / sub для загрузки данных событий перед подключением к облачной службе потоков данных Google, чтобы преобразовать их. Почему он не подключается к данным событий напрямую через поток данных?

Спасибо.

1 Ответ

4 голосов
/ 29 марта 2020

Для потока данных потребуется источник, из которого можно получить данные. Если вы используете потоковый конвейер, вы можете использовать различные параметры в качестве источника , и каждый из них будет иметь свои собственные характеристики, которые могут соответствовать вашему сценарию.

С Pub / Sub Вы можете легко публиковать sh события, используя клиентскую библиотеку или напрямую API для topi c, и это будет гарантировать по крайней мере один раз доставку этого сообщения.

Когда вы соединяете его с потоковым конвейером потока данных, вы можете иметь отказоустойчивую архитектуру (Pub / Sub будет продолжать посылать сообщение до тех пор, пока поток данных не подтвердит, что он его обработал) и обработку почти в реальном времени. Кроме того, Dataflow может использовать метрики Pub / Sub для увеличения или уменьшения в зависимости от количества сообщений в заделе.

Наконец, бегунок Dataflow использует оптимизированную версию соединителя PubSubIO, который предоставляет дополнительные функции. Я предлагаю проверить эту документацию , которая описывает некоторые из этих функций.

...