Версия Python отличается по рабочему и водителю - PullRequest
0 голосов
/ 04 июля 2019

Вопрос, на который я пытаюсь ответить:

Создать RDD

Используйте карту для создания RDD массивов NumPy, указанных в столбцах.Имя RDD будет Rows

Мой код: Rows = df.select(col).rdd.map(make_array)

После того, как я наберу это, я получаю странную ошибку, которая в основном говорит: Исключение: Python in worker имеет другую версию 2.7чем в драйвере 3.6, PySpark не может работать с другими второстепенными версиями.Пожалуйста, проверьте, правильно ли установлены переменные окружения PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON.

enter image description here

Я знаю, что работаю в среде с Python 3.6.Я не уверен, что эта конкретная строка кода вызывает эту ошибку?Как вы думаете

Просто заметьте, это не первая строка кода на этом ноутбуке Jupyter.Если вам нужна дополнительная информация, пожалуйста, дайте мне знать, и я предоставлю ее.Я не могу понять, почему это происходит.

1 Ответ

0 голосов
/ 04 июля 2019

Ваши ведомые устройства и ваш драйвер не используют одну и ту же версию Python, которая будет вызывать эту ошибку каждый раз, когда вы используете Spark.

Убедитесь, что на подчиненных устройствах установлен Python 3.6, затем (в Linux) измените свойspark/conf/spark-env.sh файл для добавления PYSPARK_PYTHON=/usr/local/lib/python3.6 (если это каталог python в ваших подчиненных)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...