Question

Я новичок в spark и pyspark. Я установил все, что мне нужно, на linux машину с 12 ядрами и 24g оперативной памяти.

Когда я пытаюсь выполнить какую-либо команду, используя pyspark, я заметил, что работает только один процессор. Это то, что я делаю, чтобы инициализировать процесс. Это нормально?

from pyspark.sql import SparkSession 

spark = SparkSession.builder.getOrCreate()
spark.conf.set('spark.executor.cores', '12')
spark.conf.set("spark.driver.memory", '24g')
spark.conf.set('spark.executor.memory', '24g')
spark.conf.set("spark.python.worker.memory", '24g')
spark.conf.set("spark.sql.shuffle.partitions", '12')
sc = spark.sparkContext

Manoj Kumar Dhakd · Answer 1 · 04 февраля 2020

Согласно конфигурации spark.conf.set('spark.executor.memory', '24g'), вы предоставляете полную оперативную память одному исполнителю, поэтому Application Master не может запустить больше исполнителя. Измените его на 2g / 4g / 6g и посмотрите, как добавляются исполнители. Пожалуйста, смотрите ниже для получения дополнительной информации относительно того же.

Pyspark: как настроить начальные настройки памяти и ядер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark: как настроить начальные настройки памяти и ядер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов