Pyspark имеет разные версии в драйвере (python3.5) и работнике (python2.7) - PullRequest
0 голосов
/ 28 января 2019

Я использую как hdfs, так и обычный пользовательский режим. По умолчанию локальная версия Python - 3.5, а в hdfs - 2.7.Эта ошибка выскакивала, когда я пытался загрузить файлы в hdfs и попытался отобразить его в jupyter.

enter image description here

Я попытался отредактировать файл spark-env.sh. Но когда я искал его, там было несколько файлов spark -env.sh, и яотредактировал их все, но тщетно. Я нашел похожие вопросы в переполнении стека, но, похоже, ничего не работает и не подходит для моей конкретной проблемы.

Если вам требуется информация о чем-либо, пожалуйста, дайте мне знать в комментариях, поскольку я не знаю, какая информация требуется здесь.

1 Ответ

0 голосов
/ 28 января 2019

Вы должны убедиться, что следующие переменные окружения в вашем spark-env.sh указывают на двоичные исполняемые файлы python с одинаковой (!) Версией на всех (!) Ваших узлах:

  • PYSPARK_DRIVER_PYTHON
  • PYSPARK_PYTHON

Если PYSPARK_PYTHON в настоящее время не установлен, установите его.PYSPARK_PYTHON определяет исполняемый файл для исполнителя и драйвера.Когда вы устанавливаете только PYSPARK_DRIVER_PYTHON в python3.5, исполнитель все равно будет использовать исполняемый файл python по умолчанию, который является python2.7, и это вызовет исключение, которое вы видите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...