ядро pyspark на Jupyter генерирует ошибку «искра не найдена» - PullRequest
0 голосов
/ 18 ноября 2018

У меня есть несколько pyspark ноутбуков с ядром jupyter, которые работали месяцами, но в последнее время уже не работают. Само ядро ​​pyspark работает: выдает синее сообщение:

    Kernel Loaded

.. и мы видим, что ядро ​​ доступно :

enter image description here

Но я заметил это в jupyter журнале:

[IPKernelApp] ВНИМАНИЕ | Неизвестная ошибка при обработке файла PYTHONSTARTUP /shared/spark/python/pyspark/shell.py:

И при попытке выполнить какую-то работу в spark мы получаем:

---> 18     df = spark.read.parquet(path)
     19     if count: p(tname + ": count="+str(df.count()))
     20     df.createOrReplaceTempView(tname)

NameError: name 'spark' is not defined

без дополнительной информации.

Примечание: ядро ​​scala spark, использующее toree, способно успешно прочитать тот же файл через паркет (и фактически использует тот же код)

Так что же может происходить с ядром jupyter pyspark?

1 Ответ

0 голосов
/ 18 ноября 2018

Понял!Я обновил spark, а ядро ​​pyspark не знало об этом.

Первое: какие kernels установлены:

$jupyter kernelspec list

Available kernels:
  python2        /Users/sboesch/Library/Python/2.7/lib/python/site-packages/ipykernel/resources
  ir             /Users/sboesch/Library/Jupyter/kernels/ir
  julia-1.0      /Users/sboesch/Library/Jupyter/kernels/julia-1.0
  scala          /Users/sboesch/Library/Jupyter/kernels/scala
  scijava        /Users/sboesch/Library/Jupyter/kernels/scijava
  pyspark        /usr/local/share/jupyter/kernels/pyspark
  spark_scala    /usr/local/share/jupyter/kernels/spark_scala

Давайте рассмотрим ядро ​​pyspark:

sudo vim  /usr/local/share/jupyter/kernels/pyspark/kernel.json

Особый интерес представляет файл spark jar:

PYTHONPATH="/shared/spark/python/:/shared/spark/python/lib/py4j-0.10.4-src.zip"

Доступен ли он?

$ll "/shared/spark/python/:/shared/spark/python/lib/py4j-0.10.4-src.zip"
ls: /shared/spark/python/:/shared/spark/python/lib/py4j-0.10.4-src.zip: No such file or directory

Нет, это не так - давайте обновимсяэтот путь:

 $ll /shared/spark/python/lib/py4j*
-rw-r--r--@ 1 sboesch  wheel  42437 Jun  1 13:49 /shared/spark/python/lib/py4j-0.10.7-src.zip


PYTHONPATH="/shared/spark/python/:/shared/spark/python/lib/py4j-0.10.7-src.zip"

После этого я перезапустил jupyter и ядро ​​pyspark работает.

...