Я бы просто начал с DataProc, так как он очень близок к тому, что у вас есть.
Проверьте действия по инициализации DataProc, https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions, создайте простой кластер и почувствуйте его.
DataFlow полностью управляется, и вы не управляете никакими ресурсами кластера, но в то же время вы не можете перенести локальный кластер в DataFlow как есть, вам нужно перенести (иногда переписать) свой Hive / Pig /Oozie и т. Д.
Стоимость для DataFlow также рассчитывается по-разному, хотя в сравнении с DataProc нет первоначальной стоимости, каждый раз, когда вы запускаете задание, вы несете определенные расходы, связанные с ним в DataFlow.