Я знаю, что мне нужно инициализировать Spark Context для создания устойчивых распределенных наборов данных (RDD) в PySpark. Тем не менее, разные источники дают разные коды, как это сделать. Чтобы решить эту проблему раз и навсегда, что является правильным кодом?
1) Код из пункта Учебное пособие: https://www.tutorialspoint.com/pyspark/pyspark_sparkcontext.htm
from pyspark import SparkContext
sc = SparkContext("local", "First App")
2) Код от Apache: https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#resilient-distributed-datasets-rdds
from pyspark import SparkContext, SparkConf
Затем, далее вниз по странице, есть:
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
Это всего лишь два примера. Я могу перечислить больше, но главная проблема для меня - отсутствие единообразия для чего-то такого простого и простого. Пожалуйста, помогите и уточнить.