aws emr не может изменить pyspark python по умолчанию при загрузке - PullRequest
0 голосов
/ 04 ноября 2018

Я использую aws с emr и пытаюсь перейти на сценарий начальной загрузки, чтобы установить для Python по умолчанию в pyspark значение python 3, я следую этому учебнику

это меняет файл /usr/lib/spark/conf/spark-env.sh, но не меняет версию python в pyspark, я все еще выполняю работу с python 2.7. это работает только когда я ssh к машине и специально использую

$source /usr/lib/spark/conf/spark-env.ssh

Когда я пытаюсь добавить эту строку в скрипт начальной загрузки, я получаю сообщение об ошибке начальной загрузки, что файл не найден.

/ bin / bash: /usr/lib/spark/conf/spark-env.sh: такого файла или каталога нет

Я предполагаю, что файл не существует на этом этапе. Как я могу установить Python Pyspark на Python 3 в скрипте начальной загрузки?

1 Ответ

0 голосов
/ 19 февраля 2019

Добавьте следующий код в конфигурацию программного обеспечения (создайте emr -> step1: программное обеспечение и шаги -> отредактируйте конфигурацию программного обеспечения -> введите конфигурацию)

[
  {
     "Classification": "spark-env",
     "Configurations": [
       {
         "Classification": "export",
         "Properties": {
            "PYSPARK_PYTHON": "/usr/bin/python3"
          }
       }
    ]
  }
]
...