GCP Dataflow, Dataproc, Bigtable - PullRequest
       44

GCP Dataflow, Dataproc, Bigtable

0 голосов
/ 21 февраля 2019

Я выбираю сервисы для записи и преобразования сообщений JSON из Cloud Pub / Sub в BigQuery для конвейера данных в Google Cloud.Я хочу минимизировать расходы на обслуживание.Я также хочу отслеживать и приспосабливать объем входных данных, который будет меняться в размере с минимальным ручным вмешательствомЧто мне делать?

A.Используйте Cloud Dataproc для запуска ваших преобразований.Мониторинг загрузки ЦП для кластера.Измените количество рабочих узлов в кластере с помощью командной строки.

B.Используйте Cloud Dataproc для запуска ваших преобразований.Используйте команду Diagnose для генерации оперативного выходного архива.Найдите узкое место и настройте ресурсы кластера.

C.Используйте Cloud Dataflow для запуска ваших преобразований.Контролировать отставание системы заданий с помощью Stackdriver.Используйте настройку автоматического масштабирования по умолчанию для рабочих экземпляров.

D.Используйте Cloud Dataflow для запуска ваших преобразований.Отслеживайте общее время выполнения выборки заданий.Сконфигурируйте задание, чтобы при необходимости использовать нестандартные типы компьютеров Compute Engine.

1 Ответ

0 голосов
/ 21 февраля 2019

C!

Используйте Dataflow на pubsub для преобразования ваших данных и позволяйте им записывать строки в BQ.Вы можете отслеживать конвейер ETL прямо из потока данных и использовать стекадривер сверху.Stackdriver также можно использовать для запуска событий и т. Д.

Используйте автоматическое масштабирование, чтобы минимизировать количество ручных действий.В основном, когда это решение настроено правильно, оно вообще не нуждается в работе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...