Упаковка Python-Project с пандами - PullRequest
0 голосов
/ 14 января 2019

У меня есть проект на Python для работы Spark. Я хочу отправить команду spark-submit с использованием --py-files и указать все зависимости. ищите все зависимые модули в команде spark-submit только как

spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip, pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip driver.py --job = dataIngestionTool.dataPrepartion.dataIngestion - configLoc = config.cnf "

это не работает, если я добавляю pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip в py-файлы и происходит ошибка с ошибкой

Файл "pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip/pandas/init.py", строка 19, в ImportError: отсутствуют обязательные зависимости ['numpy'] "

панды внутренне зависят от numpy .. даже добавляя numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip в py-файлы, та же ошибка все еще появляется.

Когда я установил pandas (со всеми зависимостями) в моей среде и не получил pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip и numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip, проблема решена .

т.е. команда работает нормально:

spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip driver.py --job=dataIngestionTool.dataPrepartion.dataIngestion --configLoc=config.cnf"

если я добавляю панд в py-файлы, то это только сбой.

Кажется, проблема в пандах. Может кто-нибудь помочь мне в этом или ее известной проблеме.

...