спарк кластер на aws emr не могу найти spark-env.sh - PullRequest
0 голосов
/ 29 октября 2018

Я играю с apache-spark на aws emr и пытаюсь использовать this , чтобы настроить кластер на использование python3,

Я использую команду как последнюю команду в скрипте начальной загрузки

sudo sed -i -e '$a\export PYSPARK_PYTHON=/usr/bin/python3' /etc/spark/conf/spark-env.sh

Когда я использую его, кластер падает во время начальной загрузки со следующей ошибкой.

sed: невозможно прочитать /etc/spark/conf/spark-env.sh: такого файла нет или каталог

Как мне настроить его на правильное использование python3?

Это не дубликат из . Моя проблема в том, что кластер не находит файл spark-env.sh во время начальной загрузки, тогда как другой вопрос касается проблемы, когда система не находит python3

1 Ответ

0 голосов
/ 24 января 2019

В конце концов, я не использовал этот скрипт, но использовал файл EMR configuration , который доступен на этапе создания. Он дал мне правильные конфигурации через spark_submit (в графическом интерфейсе aws). Если вам нужно чтобы он был доступен для сценариев pyspark более программным способом, вы можете использовать os.environ, чтобы установить версию python для pyspark в сценарии python

...