Невозможно импортировать графические фреймы в оболочке pyspark на искровом кластере gcloud dataproc - PullRequest
0 голосов
/ 14 мая 2018

Создает искровой кластер через консоль gcloud со следующими параметрами

Кластеры gcloud dataproc создают имя кластера --регион us-east1 --num-masters 1 --num-working 2 --master-machine-тип n1-standard-2 - рабочий-машинный тип n1-standard-1 - метаданные spark-packages = graphframes: graphframes: 0.2.0-spark2.1-s_2.11

на главном узле искры- запустил оболочку pyspark следующим образом:

pyspark - упаковывает графические рамки: graphframes: 0.2.0-spark2.0-s_2.11

...

found graphframes #graphframes; 0.2.0-spark2.0-s_2.11 в пакетах spark

[SUCCESSFUL] graphframes # graphframes; 0.2.0-spark2.0-s_2.11! graphframes.jar (578ms)

...

    graphframes#graphframes;0.2.0-spark2.0-s_2.11 from spark-packages in [default]
    org.scala-lang#scala-reflect;2.11.0 from central in [default]
    org.slf4j#slf4j-api;1.7.7 from central in [default]
    ---------------------------------------------------------------------
    |                  |            modules            ||   artifacts   |
    |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
    ---------------------------------------------------------------------
    |      default     |   5   |   5   |   5   |   0   ||   5   |   5   |
    ---------------------------------------------------------------------

...

Использование Python версии 2.7.9 (по умолчанию, 29 июня 2016 г., 13:08:31) SparkSession доступен как 'spark'.

>>> from graphframes import *

Traceback (последний вызов был последним): файл "", строка 1, в ImportError: нет модуля с именем graphframes

Как загрузить графические фреймы в искровом кластере gcloud dataproc?

1 Ответ

0 голосов
/ 18 мая 2018

Кажется, это известная проблема, которую вы перепрыгнули через обручи, чтобы заставить ее работать в pyspark: https://github.com/graphframes/graphframes/issues/238, https://github.com/graphframes/graphframes/issues/172

...