Question

У меня следующая структура папок

 - libfolder
    - lib1.py
    - lib2.py
 - main.py

main.py, звонки libfolder.lib1.py, которые затем вызывают libfolder.lib2.py и другие.

Все это прекрасно работает на локальном компьютере, но после развертывания его на Dataproc я получаю следующую ошибку

File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/serializers.py", line 455, in loads
return pickle.loads(obj, encoding=encoding)
ModuleNotFoundError: No module named 'libfolder'

Я сжал папку в xyz.zip и выполнил следующую команду:

spark-submit --py-files=xyz.zip main.py

Сериализатору не удалось найти местоположение для libfolder.Есть ли проблема с тем, как я упаковываю свои папки?

Эта проблема похожа на эту , но на нее нет ответа.

Редактировать: ответ на вопросы Игоря

unzip -l для файла zip возвращает следующее

 - libfolder
    - lib1.py
    - lib2.py
 - main.py

В main.py lib1.py вызывается с этим оператором импорта

from libfolder import lib1

Antonio Cachuan · Answer 1 · 02 января 2019

Для меня работает запись py-файлов в кавычках.

spark2-submit --master yarn --verbose --deploy-mode client --py-files "dependencies.zip" $HOME/jobs/master/etl_master.py

Также запомните порядок аргументов, я бы порекомендовал сначала добавить --verbose после того, как отправить сновазадание и посмотрите в журнале, чтобы найти аргументы, передаваемые вашей программой на сервер.

tix · Answer 2 · 21 декабря 2018

Это сработало для меня:

$ cat main.py

from pyspark import SparkContext, SparkConf

from subpkg import sub

conf = SparkConf().setAppName("Shell Count")
sc = SparkContext(conf = conf)

text_file = sc.textFile("file:///etc/passwd")
counts = text_file.map(lambda line: sub.map(line)) \
    .map(lambda shell: (shell, 1)) \
    .reduceByKey(lambda a, b: sub.reduce(a, b))

counts.saveAsTextFile("hdfs:///count5.txt")

$ cat subpkg/sub.py

def map(line):
  return line.split(":")[6]

def reduce(a, b):
  return a + b

$ unzip -l /tmp/deps.zip 
Archive:  /tmp/deps.zip
  Length      Date    Time    Name
---------  ---------- -----   ----
        0  2019-01-07 14:22   subpkg/
        0  2019-01-07 13:51   subpkg/__init__.py
       79  2019-01-07 14:13   subpkg/sub.py
---------                     -------
       79                     3 files


$ gcloud dataproc jobs submit pyspark --cluster test-cluster main.py --py-files deps.zip
Job [1f0f15108a4149c5942f49513ce04440] submitted.
Waiting for job output...
Hello world!
Job [1f0f15108a4149c5942f49513ce04440] finished successfully.

ModuleNotFoundError, поскольку сериализатор PySpark не может найти папку библиотеки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

ModuleNotFoundError, поскольку сериализатор PySpark не может найти папку библиотеки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы