Мой вопрос относится к этому одному , но ответы там у меня не сработали. Я запустил кластер EMS AWS и установил по умолчанию для Spark использование Python 3 вместо Python 2 через объект конфигурации здесь . Я также добавил действие начальной загрузки при запуске кластера с файлом .sh, содержащим sudo pip install boto3
. Однако, когда я ssh в кластер и запускаю pyspark
, я получаю следующую ошибку, как будто boto3 не был установлен:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.2
/_/
Using Python version 3.6.8 (default, May 24 2019 18:27:52)
SparkSession available as 'spark'.
>>> import boto3
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'boto3'
Когда я пытаюсь запустить pip install boto3
в терминале кластера, я вижу сообщения, говорящие Requirement already satisfied
. Как я могу указать pyspark на установку пакетов? Или я могу установить их отдельно для Python 3?