Question

Я очень новичок в потоке данных, я хочу построить конвейер, который будет использовать pubsub в качестве источника.

Я работал над потоковым конвейером, который имеет flink в качестве потокового движка и kafka в качестве источника, так как мы можемустановить параллелизм в flink для чтения сообщений от kafka так, чтобы обработка сообщений могла происходить параллельно, а не последовательно.

Мне интересно, возможно ли то же самое в pubsub-> dataflow, или оно будет читать сообщения только в последовательном порядке.

Alex Amato · Answer 1 · 01 апреля 2019

Взгляните на PubSubToBigQuery конвейер.Это использует PubSub в качестве источника, это будет читать данные параллельно.Каждый из нескольких потоков будет считывать сообщение из pubsub и передавать его в нисходящие преобразования для обработки по умолчанию.

Обратите внимание, что конвейер PubSubToBQ также может быть запущен как конвейер шаблона , который хорошо работает для многих пользователей.Просто запустите конвейер из пользовательского интерфейса шаблона и установите соответствующие параметры, чтобы они указывали на расположение вашего паба и BQ.Некоторые пользователи предпочитают использовать его таким образом.Но это зависит от того, где вы хотите хранить свои данные.

Как читать из источника pubsub параллельно, используя поток данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать из источника pubsub параллельно, используя поток данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы