Question

Я знаю, что мне нужно инициализировать Spark Context для создания устойчивых распределенных наборов данных (RDD) в PySpark. Тем не менее, разные источники дают разные коды, как это сделать. Чтобы решить эту проблему раз и навсегда, что является правильным кодом?

1) Код из пункта Учебное пособие: https://www.tutorialspoint.com/pyspark/pyspark_sparkcontext.htm

from pyspark import SparkContext
sc = SparkContext("local", "First App")

2) Код от Apache: https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#resilient-distributed-datasets-rdds

from pyspark import SparkContext, SparkConf

Затем, далее вниз по странице, есть:

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

Это всего лишь два примера. Я могу перечислить больше, но главная проблема для меня - отсутствие единообразия для чего-то такого простого и простого. Пожалуйста, помогите и уточнить.

pissall · Answer 1 · 18 октября 2019

1)

In local[N] - N - максимальное количество ядер, которое можно использовать в узле в любой момент времени. Это будет использовать ваши локальные ресурсы хоста.

В режиме кластера (при указании IP-адреса главного узла) вы можете установить --executor-cores N. Это означает, что каждый исполнитель может одновременно выполнить максимум N задач в исполнителе.

2)

И если вы не укажете имя приложения, его можно оставить пустымили искра не может создать случайное имя. Я пытаюсь получить исходный код для setAppName(), но не могу найти мясо

Почему код для инициализации Spark Context сильно различается в разных источниках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1)

2)

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему код для инициализации Spark Context сильно различается в разных источниках?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1)

2)

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов