Question

Я хочу прочитать входящие данные по теме Google PubSub, обработать данные и преобразовать их в единую структуру данных, а затем вставить их в набор данных в Google BigQuery. Из того, что я понимаю, можно использовать какой-то конвейер, который передает данные. Однако у меня возникают проблемы с поиском хороших и кратких примеров, которые бы достигли этого.

Мой проект написан на Scala, поэтому я бы предпочел примеры, написанные на этом языке. Иначе что-то сжатое в Java тоже работает.

Спасибо!

dsesto · Answer 1 · 03 мая 2018

Я бы сказал, Облачный поток данных Google - правильный продукт для вашего случая использования. Он используется именно для того, что вы описали: читать входные данные из разных источников (в вашем случае Pub / Sub), преобразовывать их и записывать в приемник (здесь BigQuery).

Поток данных работает с Пакетами и Потоковыми Конвейерами. В первом случае все данные доступны во время создания, а во втором - версия, которая вам нужна, которая непрерывно считывает данные из неограниченного источника (например, подписка Pub / Sub) и работает с данными, как только прибывает в трубопровод.

Кроме того, вам будет полезно, чтобы команда Dataflow недавно выпустила бета-версию некоторых шаблонов, которые вы можете использовать, чтобы упростить работу с Dataflow. В этом случае даже существует шаблон Cloud Pub / Sub to BigQuery , который можно использовать как есть, или изменить его исходный код (доступен в официальном репозитории GitHub ) чтобы добавить любое преобразование, которое вы хотите применить между Pub / Sub-read и BigQuery-write.

Обратите внимание, что последняя версия Dialogflow Java SDK основана на Apache Beam , который содержит множество документации и ссылок на код, которые могут вас заинтересовать:

Встроенные преобразования ввода / вывода (для чтения / записи в Pub / Sub, BigQuery или многих других опциях)
Справочник по Java SDK (где вы найдете всю информацию о классах, доступных в SDK)
Руководство по программированию Apache Beam (здесь вы найдете полное описание основ Apache Beam и все, что вам следует учитывать
Сравнение моделей программирования потока данных (Apache Beam) и Spark (например, с использованием Scala)

Потоковая передача данных из темы Google PubSub в Google BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Потоковая передача данных из темы Google PubSub в Google BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы