Поток данных не может использовать выделенную виртуальную машину, и для обновления конвейера может потребоваться полное время установки. После запуска нескольких потоковых заданий я обнаружил, что для последовательного извлечения данных из PubSub требуется ~ 4 минуты. Для небольших наборов данных вы можете быстрее использовать локального бегуна на экземпляре GCE в том же регионе, что и база данных SQL, на одном компьютере.
Если вы работаете с небольшими наборами данных и не планируете реалистично масштабировать их до очень больших наборов данных, вы, вероятно, могли бы использовать команды оболочки для обработки ваших данных намного быстрее и дешевле, чем запуск задания Dataflow.
Отличная статья о том, как избегать инструментов с большими данными, когда у вас нет больших данных.