Поток данных и небольшие наборы данных - PullRequest
0 голосов
/ 05 ноября 2018

Я использую Cloud Dataflow для загрузки данных в Cloud SQL. Некоторые нагрузки состоят из простых преобразований в небольших наборах данных. Я заметил, что Cloud Dataflow требует времени, чтобы выделить виртуальные машины для обработки. Есть ли способ определить выделенную виртуальную машину для облачного потока данных? Или нужно запускать виртуальные машины каждый раз при запуске задания? Полезен ли облачный поток данных для небольших наборов данных или его можно использовать только тогда, когда нам приходится работать с большими наборами данных?

1 Ответ

0 голосов
/ 06 ноября 2018

Поток данных не может использовать выделенную виртуальную машину, и для обновления конвейера может потребоваться полное время установки. После запуска нескольких потоковых заданий я обнаружил, что для последовательного извлечения данных из PubSub требуется ~ 4 минуты. Для небольших наборов данных вы можете быстрее использовать локального бегуна на экземпляре GCE в том же регионе, что и база данных SQL, на одном компьютере.

Если вы работаете с небольшими наборами данных и не планируете реалистично масштабировать их до очень больших наборов данных, вы, вероятно, могли бы использовать команды оболочки для обработки ваших данных намного быстрее и дешевле, чем запуск задания Dataflow.

Отличная статья о том, как избегать инструментов с большими данными, когда у вас нет больших данных.

...