, вот как я вызываю свою работу в pyspark:
./spark-submit --master yarn ~/workspace/really_big_sparktask.py --deploy-mode cluster
И у меня есть следующая конфигурация, которую я установил внутри своей работы в pyspark.
if __name__ == "__main__":
conf = ps.SparkConf().setAll([
(u'spark.app.name', u'Magic maker'),
('spark.executor.memory', '16g'),
('spark.driver.memory','8g'),
('spark.executor.cores', '3'),
('spark.dynamicAllocation.maxExecutors', 50),
('spark.dynamicAllocation.initialExecutors', 45)])
sc = SparkContext("yarn", "Magic", conf=conf)
from pprint import pprint
pprint(sorted(sc.getConf().getAll()))
spark = SparkSession(sc)
И я заметил, чтони одна из моих конфигураций не была соблюдена:
(u'spark.dynamicAllocation.enabled', u'true'),
(u'spark.dynamicAllocation.maxExecutors', u'2'),