Как упаковать Pandas в приложение Pyspark через spark-submit? - PullRequest
0 голосов
/ 16 апреля 2020

У меня есть приложение pyspark, которое зависит от внешних библиотек (pandas, запросы и т. Д. c). Теперь я отправляю это приложение через spark-submit, где я упаковываю все эти внешние библиотеки (pip install -r $ list_of_ext_deps -t $ target_location) в файл jar и передаю как pyFiles.

Импорт всех другие библиотеки работают нормально, но когда дело доходит до pandas, я получаю это: ImportError: C extension: No module named conversion not built. If you want to import pandas from the source directory, you may need to run 'python setup.py build_ext --inplace --force' to build the C extensions first.

Вместо этого, если у меня установлен pandas на спарк-узлах через pip. Я не вижу этого исключения, и если я использую pip и связываю их, а затем перехожу к pyfiles, почему возникают проблемы с импортом только при импорте pandas или как правильно упаковать их, которые зависят от C?

Примечание. Я не могу использовать Conda env в производственной среде.

...