Почему pyspark executor не может распознать зависимости, установленные pip в образе - PullRequest
0 голосов
/ 21 марта 2020

Я изо всех сил пытаюсь заставить мое приложение pyspark работать с его зависимостями. Я попробовал принятый ответ под на этот вопрос , но он не работает для меня, потому что у меня есть thriftpy2 как зависимость, которая использует cython, поэтому имеет .so файлы, и в этом случае я могу не упакуйте их в мой ноутбук MacOS и отправьте в pyspark по --py-files, при работе он выдаст сообщение об ошибке типа invalid ELF header.

В результате я пытаюсь запустить executor в docker на YARN. Я строю образ с установкой всех зависимостей, включая thriftpy2 по pip. Я полагаю, что pyspark узнает их по PYTHONPATH или как-то еще, но он не жалуется на ImportError: No module named <my dependency>.

Итак, кто-то может сказать мне, должно ли это работать или нет? У меня нет выбора, кроме как придерживаться --py-files?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...