Почему оболочки Spark (PySpark или Scala) работают в режиме клиента, а не в режиме кластера? - PullRequest
0 голосов
/ 05 июля 2019

Я всегда понимал, что оболочки Spark, будь то PySpark или Scala, работают в режиме клиента.И поправьте меня, если я ошибаюсь, нет готовой конфигурации для использования их в режиме кластера.

Почему это так?Что делает кластерный режим неподходящим для этих интерактивных оболочек?

Задержка в сети между клиентом и драйвером может быть одним из факторов.И если используется YARN, может быть более высокое начальное время запуска, так как ресурсы кластера для драйвера должны быть предоставлены из YARN Resource Manager.Но мне кажется, что эти два фактора не являются серьезными блокаторами.

РЕДАКТИРОВАТЬ
Вопрос Различие Spark-submit / spark-shell> между режимом пряжи-клиента и кластера пряжи связано, но не фокусируется(и ответы не охватывают), почему оболочки не могут работать в кластерном режиме.

pyspark --deploy-mode cluster
Error: Cluster deploy mode is not applicable to Spark shells.
...