Я изо всех сил пытаюсь заставить мое приложение pyspark работать с его зависимостями. Я попробовал принятый ответ под на этот вопрос , но он не работает для меня, потому что у меня есть thriftpy2
как зависимость, которая использует cython, поэтому имеет .so
файлы, и в этом случае я могу не упакуйте их в мой ноутбук MacOS и отправьте в pyspark по --py-files
, при работе он выдаст сообщение об ошибке типа invalid ELF header
.
В результате я пытаюсь запустить executor в docker на YARN. Я строю образ с установкой всех зависимостей, включая thriftpy2
по pip. Я полагаю, что pyspark узнает их по PYTHONPATH или как-то еще, но он не жалуется на ImportError: No module named <my dependency>
.
Итак, кто-то может сказать мне, должно ли это работать или нет? У меня нет выбора, кроме как придерживаться --py-files
?