GCP - искра на GKE против Dataproc - PullRequest
0 голосов
/ 31 января 2019

Наша организация недавно перевела свою инфраструктуру с AWS на облачные вычисления Google, и я подумал, что кластеры dataproc - это хорошее решение для выполнения наших существующих рабочих мест.Но когда дело дошло до сравнения цен, я также понял, что могу просто запустить кластер google kubernetes engine и установить в него spark для запуска приложений spark.

Теперь мой вопрос: как сравнить «работающую искру на gke» и использование dataproc?Какой из них будет лучшим вариантом с точки зрения автомасштабирования, ценообразования и инфраструктуры.Я прочитал документацию по goog для gke и dataproc, но этого недостаточно, чтобы быть уверенным в преимуществах и недостатках использования GKE или dataproc по сравнению с другими.

Любое мнение эксперта будет чрезвычайно полезным.

Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 14 марта 2019

Добавление двух моих центов к ответу выше.

  • Я бы предпочел DataProc, потому что он управляется и поддерживает Spark из коробки.Нет проблем.Что еще более важно, стоимость оптимизирована.Возможно, вам не нужны кластеры все время, у вас могут быть временные кластеры с dataproc.
  • С GKE мне нужно явно сбросить кластер и воссоздать при необходимости.Необходимо позаботиться о дополнительном уходе.
  • Я не мог встретить никаких прямых услуг от GCP по линии передачи данных.В этом случае я бы, вероятно, использовал Apache Atlas с Spark-Atlas-Connector на установке Spark, которую я выполнял сам.В этом случае запуск Spark на GKE с полным контролем, лежащим на мне, сделал бы убедительный выбор.
0 голосов
/ 31 января 2019

Spark для DataProc проверен и используется во многих организациях, хотя он не полностью управляем, вы можете автоматизировать создание и демонтаж кластера, отправку заданий и т. Д. Через API GCP, но все же это еще один стек, которым вы должны управлять.

Spark в GKE - это что-то новое, Spark начал добавлять функции начиная с версии 2.4 для поддержки Kubernetes, и даже Google обновил Kubernetes для предварительного просмотра пару дней назад, Ссылка

Я бы просто пошел с DataProc, если бы мне пришлось запускать Jobs в среде Prod, как мы говорим, иначе вы могли бы просто поэкспериментировать с Docker и посмотреть, как он поживает, но я думаю, что ему нужно немного больше времени, чтобы быть стабильным, просто с точки зрения затрат.с Docker будет дешевле, так как вы сможете делиться ресурсами с другими вашими сервисами.

...