Модуль Amazon EMR Pyspark не найден после настройки 3.6 вместо 2.7 - PullRequest
0 голосов
/ 18 июня 2019

Мой вопрос относится к этому одному , но ответы там у меня не сработали. Я запустил кластер EMS AWS и установил по умолчанию для Spark использование Python 3 вместо Python 2 через объект конфигурации здесь . Я также добавил действие начальной загрузки при запуске кластера с файлом .sh, содержащим sudo pip install boto3. Однако, когда я ssh в кластер и запускаю pyspark, я получаю следующую ошибку, как будто boto3 не был установлен:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.2
      /_/

Using Python version 3.6.8 (default, May 24 2019 18:27:52)
SparkSession available as 'spark'.
>>> import boto3
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'boto3'

Когда я пытаюсь запустить pip install boto3 в терминале кластера, я вижу сообщения, говорящие Requirement already satisfied. Как я могу указать pyspark на установку пакетов? Или я могу установить их отдельно для Python 3?

...