Мы используем Cloud Function для преобразования наших данных в BigQuery: - все данные находятся в BigQuery - для преобразования данных мы используем только SQL запросов в BigQuery - каждый запрос выполняется один раз в день - наш самый большой запрос SQL выполняется примерно 2–3 минуты, но большинство запросов выполняется менее 30 секунд - у нас примерно 50 запросов выполняется один раз в день, и это число увеличивается
Сначала мы попытались сделать то же самое (SQL запросов в BigQuery) с Dataflow, но: - только для запуска потока данных потребовалось от 10 до 15 минут - его сложнее кодировать, чем наши облачные функции - в то время Dataflow SQL не был реализован
Каждый раз, когда мы разговариваем с кем-либо, использующим GCP (пользователями, инструкторами или аудиторами), они рекомендуют использовать Dataflow. Итак, в нашем случае мы пропустили что-то «magi c» с Dataflow? Есть ли способ запустить его за секунды, а не за минуты?
Кроме того, если мы используем потоковую передачу в Dataflow, как рассчитываются затраты? Я понимаю, что пакетно мы платим за то, что используем, но что, если мы будем использовать потоковую передачу? Считается ли это постоянно действующей услугой?
Спасибо за вашу помощь