Нет модуля с именем graphframes Jupyter Notebook - PullRequest
0 голосов
/ 11 мая 2018

Я следую этому руководству по установке, но у меня возникла следующая проблема с использованием graphframes

from pyspark import SparkContext
sc =SparkContext()
!pyspark --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
from graphframes import *

--------------------------------------------------------------------------- ImportError Traceback (последний вызов был последним) в () ----> 1 из графических фреймов import *

ImportError: нет модуля с именем graphframes

Я не уверен, можно ли установить пакет следующим образом.Но я буду благодарен за ваш совет и помощь.

Ответы [ 2 ]

0 голосов
/ 02 марта 2019

Я использую блокнот jupyter в докере, пытаясь заставить работать графические фреймы.Сначала я использовал метод в https://stackoverflow.com/a/35762809/2202107, У меня есть:

import findspark
findspark.init()
import pyspark
import os

SUBMIT_ARGS = "--packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

conf = pyspark.SparkConf()
sc = pyspark.SparkContext(conf=conf)
print(sc._conf.getAll())

Затем, следуя этой проблеме, мы наконец-то можем import graphframes: https://github.com/graphframes/graphframes/issues/172

import sys
pyfiles = str(sc.getConf().get(u'spark.submit.pyFiles')).split(',')
sys.path.extend(pyfiles)
from graphframes import *
0 голосов
/ 18 мая 2018

Хороший вопрос!

Откройте файл bashrc и введите export SPARK_OPTS="--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11". После сохранения файла bashrc закройте его и введите source .bashrc.

Наконец, откройте свой блокнот и введите:

from pyspark import SparkContext
sc = SparkContext()
sc.addPyFile('/home/username/spark-2.3.0-bin-hadoop2.7/jars/graphframes-0.5.0-spark2.1-s_2.11.jar')

После этого вы можете запустить его.

...