Spark для DataProc проверен и используется во многих организациях, хотя он не полностью управляем, вы можете автоматизировать создание и демонтаж кластера, отправку заданий и т. Д. Через API GCP, но все же это еще один стек, которым вы должны управлять.
Spark в GKE - это что-то новое, Spark начал добавлять функции начиная с версии 2.4 для поддержки Kubernetes, и даже Google обновил Kubernetes для предварительного просмотра пару дней назад, Ссылка
Я бы просто пошел с DataProc, если бы мне пришлось запускать Jobs в среде Prod, как мы говорим, иначе вы могли бы просто поэкспериментировать с Docker и посмотреть, как он поживает, но я думаю, что ему нужно немного больше времени, чтобы быть стабильным, просто с точки зрения затрат.с Docker будет дешевле, так как вы сможете делиться ресурсами с другими вашими сервисами.