Pyspark: как настроить начальные настройки памяти и ядер? - PullRequest
0 голосов
/ 04 февраля 2020

Я новичок в spark и pyspark. Я установил все, что мне нужно, на linux машину с 12 ядрами и 24g оперативной памяти.

Когда я пытаюсь выполнить какую-либо команду, используя pyspark, я заметил, что работает только один процессор. Это то, что я делаю, чтобы инициализировать процесс. Это нормально?

from pyspark.sql import SparkSession 

spark = SparkSession.builder.getOrCreate()
spark.conf.set('spark.executor.cores', '12')
spark.conf.set("spark.driver.memory", '24g')
spark.conf.set('spark.executor.memory', '24g')
spark.conf.set("spark.python.worker.memory", '24g')
spark.conf.set("spark.sql.shuffle.partitions", '12')
sc = spark.sparkContext

1 Ответ

1 голос
/ 04 февраля 2020

Согласно конфигурации spark.conf.set('spark.executor.memory', '24g'), вы предоставляете полную оперативную память одному исполнителю, поэтому Application Master не может запустить больше исполнителя. Измените его на 2g / 4g / 6g и посмотрите, как добавляются исполнители. Пожалуйста, смотрите ниже для получения дополнительной информации относительно того же.

  1. https://aws.amazon.com/blogs/big-data/best-practices-for-successfully-managing-memory-for-apache-spark-applications-on-amazon-emr/

  2. https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...