Начальная загрузка кластера EMR + настройка переменных среды для кластера - PullRequest
0 голосов
/ 30 ноября 2018

Я пытаюсь создать кластер EMR (через командную строку) и дать ему файл загрузочных действий и файл конфигурации.

Цель состоит в установке некоторых SPARK / Yarn переменных и некоторых другихпеременные окружения, которые следует использовать для кластера (поэтому эти env-переменные должны быть доступны на главном И ведомых устройствах).

Я даю ему файл конфигурации, который выглядит следующим образом:

[
 {
    "Classification": "yarn-env",
    "Properties": {},
    "Configurations": [
      {
        "Classification": "export",
        "Properties": {
          "appMasterEnv.SOME_VAR": "123",
          "nodemanager.vmem-check-enabled": "false",
          "executor.memoryOverhead": "5g"
        },
        "Configurations": [
        ]
      }
    ]
  },
  {
    "Classification": "spark-env",
    "Properties": {},
    "Configurations": [
      {
        "Classification": "export",
        "Properties": {
          "appMasterEnv.SOME_VAR": "123",
          "PYSPARK_DRIVER_PYTHON": "python36",
          "PYSPARK_PYTHON": "python36",
          "driver.memoryOverhead": "14g",
          "driver.memory": "14g",
          "executor.memory": "14g"
        },
        "Configurations": [
        ]
      }
    ]
  }
]

Однако, когда я пытаюсь добавить некоторые шаги в кластер, этот шаг терпит неудачу, утверждая, что он не знает о средепеременная SOME_VAR.

Traceback (most recent call last):
  File "..", line 9, in <module>.
  ..
    raise EnvironmentError
OSError

(Номер строки - это то, где я пытаюсь использовать среду var SOME_VAR)

Правильно ли я делаю оба варианта для SOME_VARа другие Spark / Yarn перемен?

Спасибо

...