У меня есть приложение pyspark, которое зависит от внешних библиотек (pandas, запросы и т. Д. c). Теперь я отправляю это приложение через spark-submit
, где я упаковываю все эти внешние библиотеки (pip install -r $ list_of_ext_deps -t $ target_location) в файл jar и передаю как pyFiles
.
Импорт всех другие библиотеки работают нормально, но когда дело доходит до pandas
, я получаю это: ImportError: C extension: No module named conversion not built. If you want to import pandas from the source directory, you may need to run 'python setup.py build_ext --inplace --force' to build the C extensions first.
Вместо этого, если у меня установлен pandas на спарк-узлах через pip. Я не вижу этого исключения, и если я использую pip и связываю их, а затем перехожу к pyfiles, почему возникают проблемы с импортом только при импорте pandas или как правильно упаковать их, которые зависят от C?
Примечание. Я не могу использовать Conda env
в производственной среде.