Как получить SparkSession для поиска добавленных файлов Python - PullRequest
0 голосов
/ 24 апреля 2019

После запуска pip install BigDL==0.8.0, запуск from bigdl.util.common import * с python завершен без проблем.

Однако, с одним из следующих SparkSessions:

spark = (SparkSession.builder.master('yarn')
    .appName('test')
    .config("spark.jars", "/BigDL/spark/dl/target/bigdl-0.8.0-jar-with-dependencies-and-spark.jar")
    .config('spark.submit.pyFiles', '/BigDL/pyspark/bigdl/util.zip')
    .getOrCreate()
)

или

spark = (SparkSession.builder.master('local')
    .appName('test')
    .config("spark.jars", "/BigDL/spark/dl/target/bigdl-0.8.0-jar-with-dependencies-and-spark.jar")
    .config('spark.submit.pyFiles', '/BigDL/pyspark/bigdl/util.zip')
    .getOrCreate()
)

Я получаю следующую ошибку.

ImportError: ('No module named bigdl.util.common', <function subimport at 0x7fd442a36aa0>, ('bigdl.util.common',))

В дополнение к конфигурации 'spark.submit.pyFiles', приведенной выше, после успешного запуска SparkSession я попытался spark.sparkContext.addPyFile("util.zip"), где «util.zip» содержит все файлы python в https://github.com/intel-analytics/BigDL/tree/master/pyspark/bigdl/util.

Я также сжал все содержимое этой папки https://github.com/intel-analytics/BigDL/tree/master/pyspark/bigdl (branch-0.8) и указал на этот файл в .config('spark.submit.pyFiles', '/path/to/bigdl.zip'), но это также не работает.

Как мне заставить SparkSession увидеть эти файлы?

1 Ответ

0 голосов
/ 25 апреля 2019

Разобрался.Единственное, что сработало, было spark.sparkContext.addPyFile("bigdl.zip") после запуска SparkSesssion.Где «bigdl.zip» содержал все файлы в https://github.com/intel-analytics/BigDL/tree/master/pyspark/bigdl (ветвь-0,8).

Не уверен, почему .config('spark.submit.pyFiles', 'bigdl.zip') не будет работать.

...