Как читать из источника pubsub параллельно, используя поток данных - PullRequest
0 голосов
/ 26 марта 2019

Я очень новичок в потоке данных, я хочу построить конвейер, который будет использовать pubsub в качестве источника.

Я работал над потоковым конвейером, который имеет flink в качестве потокового движка и kafka в качестве источника, так как мы можемустановить параллелизм в flink для чтения сообщений от kafka так, чтобы обработка сообщений могла происходить параллельно, а не последовательно.

Мне интересно, возможно ли то же самое в pubsub-> dataflow, или оно будет читать сообщения только в последовательном порядке.

1 Ответ

1 голос
/ 01 апреля 2019

Взгляните на PubSubToBigQuery конвейер.Это использует PubSub в качестве источника, это будет читать данные параллельно.Каждый из нескольких потоков будет считывать сообщение из pubsub и передавать его в нисходящие преобразования для обработки по умолчанию.

Обратите внимание, что конвейер PubSubToBQ также может быть запущен как конвейер шаблона , который хорошо работает для многих пользователей.Просто запустите конвейер из пользовательского интерфейса шаблона и установите соответствующие параметры, чтобы они указывали на расположение вашего паба и BQ.Некоторые пользователи предпочитают использовать его таким образом.Но это зависит от того, где вы хотите хранить свои данные.

...