Нужно ли начинать спарк для запуска pyspark? - PullRequest
0 голосов
/ 06 мая 2019

Это может быть вопрос новичка.Вот мой сценарий.

Я установил искру на свою машину.Я еще не запустил его (используя sbin / start-all.sh или любой другой скрипт из папки sbin).Затем я открыл pyspark (используя bin / pyspark), он запустился без ошибок.Я попытался запустить пример программы:

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count() 

Это сработало без ошибок.

Вопрос 1. Разве нам не нужно запускать спарк для выполнения программы pyspark / spark-shell?

Вопрос 2. Или только Spark-submit требуется искра для запуска?

Пожалуйста, уточните, если я что-то упустил.

Ответы [ 2 ]

0 голосов
/ 14 мая 2019

Pyspark - это API-интерфейс Python для Spark, который позволяет связать простоту Python и мощь Apache Spark для того, чтобы приручить большие данные. Чтобы использовать PySpark, вам нужно установить Python и Apache spark на вашу машину. При работе с pyspark достаточно запустить pyspark.

Чтобы локально запустить pyspark на вашем компьютере:

pyspark2 - локальный мастер [*]

Перейдите по этой ссылке, чтобы установить pyspark на windows. https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c

0 голосов
/ 06 мая 2019

По умолчанию Spark работает в режиме local[*] , который обеспечивает нераспределенную среду тестирования и разработки, встроенную в одну JVM.

Это относится к spark-shell, pyspark, spark-submit и другие параметры.

sbin сценарии используются для запуска автономного менеджера кластеров Spark , обычно в распределенной среде.Если вы используете их, вам также придется правильно настроить основной URL-адрес Spark.

Однако это только один из многих поддерживаемых (и сторонних) кластерных менеджеров, которые можно использовать с Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...