Я пытаюсь создать кластер EMR (через командную строку) и дать ему файл загрузочных действий и файл конфигурации.
Цель состоит в установке некоторых SPARK
/ Yarn
переменных и некоторых другихпеременные окружения, которые следует использовать для кластера (поэтому эти env-переменные должны быть доступны на главном И ведомых устройствах).
Я даю ему файл конфигурации, который выглядит следующим образом:
[
{
"Classification": "yarn-env",
"Properties": {},
"Configurations": [
{
"Classification": "export",
"Properties": {
"appMasterEnv.SOME_VAR": "123",
"nodemanager.vmem-check-enabled": "false",
"executor.memoryOverhead": "5g"
},
"Configurations": [
]
}
]
},
{
"Classification": "spark-env",
"Properties": {},
"Configurations": [
{
"Classification": "export",
"Properties": {
"appMasterEnv.SOME_VAR": "123",
"PYSPARK_DRIVER_PYTHON": "python36",
"PYSPARK_PYTHON": "python36",
"driver.memoryOverhead": "14g",
"driver.memory": "14g",
"executor.memory": "14g"
},
"Configurations": [
]
}
]
}
]
Однако, когда я пытаюсь добавить некоторые шаги в кластер, этот шаг терпит неудачу, утверждая, что он не знает о средепеременная SOME_VAR
.
Traceback (most recent call last):
File "..", line 9, in <module>.
..
raise EnvironmentError
OSError
(Номер строки - это то, где я пытаюсь использовать среду var SOME_VAR
)
Правильно ли я делаю оба варианта для SOME_VAR
а другие Spark
/ Yarn
перемен?
Спасибо