У меня есть кластер EMR на AWS с одним мастером и двумя работниками. Каждая из трех машин (один мастер и два рабочих) имеет 4 ЦП и 15 ГБ памяти. Они м3. Большие.
Я подключаюсь к кластеру, используя sc <- spark_connect(master = "yarn-client")
.
Когда я отправляю работу, я вижу, что активен только один работник, а другой не работает.
Я пользователь R и использую пакет sparklyr
для своей работы.
Что здесь может пойти не так? Я пытался установить разные значения для параметров конфигурации spark.executor.cores
, spark.executor.instances
, spark.executor.memory
и spark.default.parallelism
, но пока безрезультатно.
Любая помощь будет оценена. Я просмотрел другие похожие посты на эту тему, но не смог добиться успеха.
conf$spark.executor.cores = 1
conf$spark.executor.instances = 11
conf$spark.executor.memory = "3409M"
conf$spark.default.parallelism = 11