Apache Передача данных пучка из Kafka в GCS Bucket (без использования pubsub) - PullRequest
1 голос
/ 17 марта 2020

Я видел множество примеров Apache Beam, где вы читаете данные из PubSub и записываете в корзину GCS, однако есть ли какой-нибудь пример использования KafkaIO и записи его в корзину GCS? Где я могу проанализировать сообщение и поместить его в соответствующее ведро на основе содержимого сообщения?

Например,

message = {type="type_x", some other attributes....}
message = {type="type_y", some other attributes....}

type_x --> goes to bucket x
type_y --> goes to bucket y

Мой сценарий использования - потоковая передача данных из Kafka в GCS, поэтому, если кто-то предложит какой-то лучший способ сделать это в GCP тоже приветствуется.

Спасибо. С уважением, Анант.

Ответы [ 2 ]

1 голос
/ 17 марта 2020

Вы можете использовать Secor для загрузки сообщений в корзину GCS. Secor также может анализировать входящие сообщения и помещать их по разным путям в одну корзину.

0 голосов
/ 17 марта 2020

Вы можете взглянуть на приведенный здесь пример - https://github.com/0x0ece/beam-starter/blob/master/src/main/java/com/dataradiant/beam/examples/StreamWordCount.java

После того, как вы прочитали элементы данных, если хотите записать в несколько адресатов на основе заданного c значение данных вы можете посмотреть на нескольких выходах, используя TupleTagList подробности о которых можно найти здесь - https://beam.apache.org/documentation/programming-guide/#additional -выходы

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...