Как перейти на Prem Hadoop в GCP - PullRequest
0 голосов
/ 11 февраля 2019

Я пытаюсь перенести задания нашей организации в hadoop на GCP ... Я запутался в потоке данных GCP и Data Proc ...

Я хочу повторно использовать уже созданные нами задания Hadoop и свести их к минимумууправление кластером в максимально возможной степени.Мы также хотим иметь возможность сохранять данные за пределами срока службы кластера ...

Может кто-нибудь предложить

Ответы [ 2 ]

0 голосов
/ 12 февраля 2019

Я бы просто начал с DataProc, так как он очень близок к тому, что у вас есть.

Проверьте действия по инициализации DataProc, https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions, создайте простой кластер и почувствуйте его.

DataFlow полностью управляется, и вы не управляете никакими ресурсами кластера, но в то же время вы не можете перенести локальный кластер в DataFlow как есть, вам нужно перенести (иногда переписать) свой Hive / Pig /Oozie и т. Д.

Стоимость для DataFlow также рассчитывается по-разному, хотя в сравнении с DataProc нет первоначальной стоимости, каждый раз, когда вы запускаете задание, вы несете определенные расходы, связанные с ним в DataFlow.

0 голосов
/ 11 февраля 2019

Многое зависит от характера ваших заданий Hadoop и действий, которые вы выполняете в отношении выбора Cloud Dataproc (управляемая платформа больших данных - ориентация Hadoop / Spark) и / или Cloud Dataflow (управляемая платформа больших данных -ориентация Apache Beam на потоковые сценарии использования).

Что касается обеспечения сохранности данных после операции, вы можете рассмотреть возможность хранения ваших данных в GCS или на PD, если это является опцией, основанной на необходимости вашего использования.случай.

...