Pyspark от установки Spark VS пакет Pyspark python - PullRequest
2 голосов
/ 21 октября 2019

Я только начинаю изучать spark, меня немного смущает эта концепция, поэтому из установки spark мы получаем pyspark в подпапках установки spark, я понимаю, что это оболочка, а из пакета python мыТакже можно также установить пакет python через pip install pyspark, поэтому мы можем запустить код python вместо отправки его в кластер, так в чем же разница между этими двумя? также в Anaconda мы можем использовать findspark и использовать pyspark оттуда, значит ли это, что он не использует pyspark из пакета python?

Плюс в реальной жизни искры разработки приложений, что используется в каком сценарии? заранее спасибо.

Ответы [ 2 ]

1 голос
/ 29 октября 2019

Если вы pip install, то это будет только установка необходимых библиотек Python локально, и не будет включать сценарий spark-submit или другие файлы конфигурации Spark, которые вы получили бы в противном случае, загрузив весь Spark.

Следовательно, в «реальном мире» Spark за пределами ноутбуков вы должны упаковать код Python в виде Zip, а затем отправить его в кластер с помощью этого сценария отправки или иным образом настроить мастер и все параметры Spark в самом коде. , который не так гибок

0 голосов
/ 22 октября 2019

В более низких версиях spark до version 2.2 вам нужно установить spark, после чего нужно выполнить некоторые шаги. Но на более высоких версиях pip install pyspark достаточно.

...