Мне нужны некоторые предложения для одного из вариантов использования, над которым я работаю.
Вариант использования:
У нас есть данные в облаке SQL около 5- 10 таблиц, некоторые обрабатываются как поисковые, а другие транзакционные. Нам нужно передать это в BigQuery таким образом, чтобы из них было сделано 3-4 таблицы (Flattered, Nested или Denormalized), которые будут использоваться для создания отчетов в Data Studio, Looker, et c.
Data. должны обрабатываться постепенно, и изменения в облаке SQL могут происходить каждые 5 минут, что означает, что данные должны быть доступны для отчетов BigQuery практически в реальном времени. Если возможно, мы также должны поддерживать историю изменения данных.
Решение:
Мы сохранили 3 слоя в BigQuery, поэтому данные из Cloud SQL приходят к первому слой, затем после выравнивания мы сохраняем его на втором слое (который поддерживает историю), а затем обрабатываем его для вставки в третий слой (Отчетность). Проблема при таком подходе заключается в том, что он был разработан для ежедневной обработки и не может помочь при обработке каждые 5 минут изменения данных в облаке SQL.
Любой предложение приветствуется.
Примечание: - Нам потребуется использовать поток данных, виртуальную машину или какой-либо другой способ обработки логики c, что означает, что мы не можем использовать только запланированный запрос, так как мы не может использовать запрос для обработки всех логи c, но да может использоваться сочетание вида и кода.