В настоящее время у нас есть настройка ETL, в которой выполняются пакетные задания для получения данных из представления нескольких отдельных кластеров MongoDB, размещения данных в Google BigQuery и последующего слияния данных в одну агрегированную таблицу. К сожалению, из-за ограничений на загрузку заданий GBQ и количества источников данных, которые мы имеем, мы ограничиваемся выполнением пакетных заданий каждые 15 минут.
В идеале мы хотели бы, чтобы данные передавались, так какблизко к реальному времени, как мы можем получить. Есть ли у кого-нибудь какие-либо предложения о том, как этого добиться, или это вообще реалистичное ожидание? Это все для нас совершенно новое, и мы бы предпочли решение на основе Python, поскольку у нас нет Java-разработчиков.
Кроме того, мы попробовали действительно простое (один источник, нетпреобразует) POC, который мы можем запускать локально, но у нас возникли некоторые проблемы при настройке пользовательского шаблона в потоке данных. Если бы кто-нибудь мог пролить свет на то, как должен выглядеть шаблон, мы были бы очень благодарны.