Потоковая трансляция MongoDB в BigQuery - PullRequest
0 голосов
/ 25 октября 2019

В настоящее время у нас есть настройка ETL, в которой выполняются пакетные задания для получения данных из представления нескольких отдельных кластеров MongoDB, размещения данных в Google BigQuery и последующего слияния данных в одну агрегированную таблицу. К сожалению, из-за ограничений на загрузку заданий GBQ и количества источников данных, которые мы имеем, мы ограничиваемся выполнением пакетных заданий каждые 15 минут.

В идеале мы хотели бы, чтобы данные передавались, так какблизко к реальному времени, как мы можем получить. Есть ли у кого-нибудь какие-либо предложения о том, как этого добиться, или это вообще реалистичное ожидание? Это все для нас совершенно новое, и мы бы предпочли решение на основе Python, поскольку у нас нет Java-разработчиков.

Кроме того, мы попробовали действительно простое (один источник, нетпреобразует) POC, который мы можем запускать локально, но у нас возникли некоторые проблемы при настройке пользовательского шаблона в потоке данных. Если бы кто-нибудь мог пролить свет на то, как должен выглядеть шаблон, мы были бы очень благодарны.

...