У меня есть проект на Python для работы Spark. Я хочу отправить команду spark-submit с использованием --py-files и указать все зависимости. ищите все зависимые модули в команде spark-submit только как
spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip, pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip driver.py --job = dataIngestionTool.dataPrepartion.dataIngestion - configLoc = config.cnf "
это не работает, если я добавляю pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip в py-файлы и происходит ошибка с ошибкой
Файл "pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip/pandas/init.py", строка 19, в
ImportError: отсутствуют обязательные зависимости ['numpy'] "
панды внутренне зависят от numpy .. даже добавляя numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip в py-файлы, та же ошибка все еще появляется.
Когда я установил pandas (со всеми зависимостями) в моей среде и не получил pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip и numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip, проблема решена .
т.е. команда работает нормально:
spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip driver.py --job=dataIngestionTool.dataPrepartion.dataIngestion --configLoc=config.cnf"
если я добавляю панд в py-файлы, то это только сбой.
Кажется, проблема в пандах. Может кто-нибудь помочь мне в этом или ее известной проблеме.