Могу ли я создать Spark Cluster при создании кластера Azure HDInsight для Starburst Presto? - PullRequest
1 голос
/ 30 мая 2019

При создании инфраструктуры для больших данных я хотел использовать Azure HDInsight с установкой Presto.Azure HDInsight поставляется с различными разновидностями, такими как hadoop, spark и т. Д. В документации рекомендуется использовать кластер hadoop, но я хочу использовать spark.

Возможно ли использовать кластер spark с дистрибутивом Starburst Presto?

1 Ответ

2 голосов
/ 30 мая 2019

Похоже, вы хотите использовать Presto и Spark одновременно. Если вы запускаете их в одном кластере, вам необходимо настроить их соответствующим образом, чтобы обеспечить совместную работу JVM для разных процессов. Это возможно, но на практике это трудно сделать (вам нужно знать, как JVM выделяет память за пределами -Xmx настройки), поэтому это определенно не рекомендуется.

Хотя я могу себе представить, что в некоторых локальных установках, где сложно подготовить новое оборудование, вы можете разместить службы в одном кластере. В облаке гораздо удобнее выделить два отдельных кластера, каждый из которых имеет размер, соответствующий вашим потребностям и рабочей нагрузке. Например, у вас может быть один кластер с Presto для интерактивной аналитики, панели мониторинга и специальных запросов. И еще один со Spark для вашего машинного обучения или рабочих нагрузок ETL.

Подробные инструкции по настройке см. В документации Starburst Presto на Azure .

...