Нужно ли всегда запускать findspark или один раз? - PullRequest
0 голосов
/ 16 октября 2019

Мой метод использования pyspark - всегда запускать приведенный ниже код в jupyter. Всегда ли нужен этот метод?

import findspark
findspark.init('/opt/spark2.4')
import pyspark
sc = pyspark.SparkContext()

1 Ответ

1 голос
/ 16 октября 2019

Если вы хотите уменьшить зависимость findspark, вы можете просто убедиться, что у вас есть эти переменные в вашем .bashrc

export SPARK_HOME='/opt/spark2.4'
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON=python3
export PATH=$SPARK_HOME:$PATH:~/.local/bin:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

Измените каталоги в соответствии с вашей средой и версией spark какЧто ж. Кроме того, findspark должен быть в вашем коде для интерпретатора Python, чтобы найти каталог spark

. Если он работает, вы можете запустить pip uninstall findspark

EDIT:

Чистое решение на Python, добавьте этот код поверх вашего ноутбука Jupyter (возможно, в первой ячейке):

import os
import sys
os.environ["PYSPARK_PYTHON"] = "/opt/continuum/anaconda/bin/python"
os.environ["SPARK_HOME"] = "/opt/spark2.4"
os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib"
sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.9-src.zip")
sys.path.insert(0, os.environ["PYLIB"] +"/pyspark.zip")

Источник: Документы Anaconda

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...