Выполнение кода PySpark в python против spark-submit - PullRequest
0 голосов
/ 20 декабря 2018

У меня есть код / ​​приложение PySpark.Каков наилучший способ его запустить (использовать максимальную мощность PySpark), используя python interpreter или spark-submit?

Ответ SO здесь был почти похож, но необъяснить это в деталях.Хотелось бы знать, почему?

Любая помощь приветствуется.Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 06 января 2019

Запуск вашей работы в оболочке pyspark всегда будет в режиме клиента.Где, используя spark-submit, вы можете выполнить его в любом из режимов.Т.е. клиент или кластер

0 голосов
/ 26 декабря 2018

Я предполагаю, что когда вы говорите, что интерпретатор Python имеет в виду оболочку pyspark.

Вы можете запустить свой код зажигания в обоих направлениях, используя интерпретатор pySpark, используя Spark-submit или даже с несколькими доступными записными книжками (Jupyter / Zeppelin).).

  1. Когда использовать PySpark Interpreter.

Обычно, когда мы учимся или выполняем некоторые базовые операции для целей понимания или исследования, мы используем интерпретатор pySpark.

Spark Submit.

Это обычно используется, когда вы написали все свое приложение в pySpark и упаковали его в py-файлы, чтобы вы могли отправить весь свой код в кластер Spark для выполнения.

Здесь может помочь небольшая аналогия.Давайте рассмотрим пример команд оболочки Unix.Мы можем выполнять команды оболочки непосредственно в командной строке или мы можем создать сценарий оболочки (.sh) для одновременного выполнения команды связки.Точно так же вы можете подумать о интерпретаторе pyspark и утилите spark-submit, где в интерпретаторе pySpark вы можете выполнить отдельную команду.Однако вы можете упаковать ваше приложение spark в py-файлы и выполнить с помощью утилиты spark-submit.

Надеюсь, это поможет.

С уважением,

Neeraj

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...