Ошибка в Pycharm при ссылке на pyspark: имя 'spark' не определено - PullRequest
0 голосов
/ 30 октября 2019

Когда я запускаю пример кода в cmd, все в порядке.

>>> import pyspark
>>> l = [('Alice', 1)]
>>> spark.createDataFrame(l).collect()
[Row(_1='Alice', _2=1)]

Но когда я выполняю код в pycharm, я получаю сообщение об ошибке.

spark.createDataFrame(l).collect()
NameError: name 'spark' is not defined

Возможно что-тонеправильно, когда я связываю Pycharm с pyspark.

Переменная среды

Структура проекта

Интерпретатор проекта

1 Ответ

0 голосов
/ 30 октября 2019

Когда вы запускаете pyspark из командной строки, у вас есть объект sparkSession и sparkContext, доступные вам как spark и sc соответственно.

Чтобы использовать его в pycharm, вы должны сначала создать эти переменные, чтобы их можно было использовать.

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

РЕДАКТИРОВАТЬ:

Пожалуйста, посмотрите на: Не удалось найти двоичный файл winutils в двоичном пути hadoop

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...