когда я отправляю скрипт python с помощью spark-submit на моем отдельном кластере искр ec2.Я использую Python 2.7.9, подтверждено, что ни один другой питон не работает в кластере.- я получаю следующую ошибку:
ImportError: No module named numpy
я проверил, что numpy работает на каждом из работников, с помощью
root@10:/usr/local/lib/python2.7/site-packages# python
Python 2.7.9 (default, Jun 29 2016, 13:08:31)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy
>>>
также скопировал вручную пакет numpy в / usr / local / lib /python2.7 / site-packages, но проблема сохраняется.
update проблема решена не в соответствии с ответом здесь.проблема заключалась в том, что jupyter & numpy были установлены на 1 образ докера на главном компьютере, а программа работала на другом образе без установки numpy с питоном в нем.поэтому было решено установить его как часть образа программы и установить в нем переменные окружения PYSPARK_PYTHON и PYTHONPATH.