Подписка на сообщения паба / подписки Google с помощью облачных функций по сравнению с использованием потока данных - PullRequest
0 голосов
/ 26 февраля 2020

У меня есть pubsub topi c с примерно 1 опубликованным сообщением в секунду. Размер сообщения составляет около 1 КБ. Мне нужно получать эти данные в реальном времени как в облаке sql, так и в больших запросах. Данные поступают с постоянной скоростью, и крайне важно, чтобы ни один из них не был потерян или задержан. Записать их несколько раз в место назначения не проблема. Размер всех данных в базе данных составляет около 1 ГБ.

Каковы недостатки / преимущества использования облачных функций Google, запускаемых topi c по сравнению с потоком данных Google, для решения этой проблемы?

1 Ответ

2 голосов
/ 26 февраля 2020

Поток данных ориентирован на преобразование данных перед их загрузкой в ​​приемник. Потоковая структура потока данных (Beam) очень эффективна, когда вы хотите выполнить вычисление оконных данных (агрегат, сумма, число, ...). Если ваш сценарий использования требует постоянной скорости, поток данных может стать проблемой при развертывании новой версии вашего конвейера (надеюсь, легко решается, если двойные значения не являются проблемой!)

Облачная функция - это клей облако. По вашему описанию это кажется идеально подходящим. На topi c создайте 2 подписки и 2 функции (по одной на каждую подписку). Один пишет в BigQuery, другой в CLoud SQL. Это распараллеливание обеспечивает минимальную задержку обработки.

...