Полагаю, вы установили Anaconda на узлы hadoop, используя посылки Cloudera?
https://www.cloudera.com/downloads/partner/anaconda.html
Если да, то вы правы, вам придется переустановить все, что вы установили поверх узлов hadoop.
Cloudera выглядитпри посылках как " неизменный " - их состояние не должно меняться.Поэтому, когда вы устанавливаете что-либо поверх посылок или изменяете их каким-либо образом, ожидайте, что ваши изменения могут быть потеряны.(например, перераспределение посылок, так как он будет разархивировать посылки снова) То же самое относится и к обновлениям - новая версия Anaconda поставляется только с новым файлом tar (это то, чем в основном является посылка, с некоторой информацией метаданных).
ЕслиВы заинтересованы в управлении средами Python - посмотрите на conda
виртуальную среду - https://conda.io/docs/user-guide/overview.html
или conda-pack
специально в качестве примера для Spark на YARN - https://conda.github.io/conda-pack/spark.html
В настоящее время мы переносим все наши задания Spark в conda
среды вместо того, чтобы полагаться на посылки Anaconda.
PS.Я заметил, что вы используете тег python-2.7
для этой темы.Обратите внимание, что бесплатные посылки Anaconda Cloudera (начиная с версии Anaconda 5) больше не предоставляют Python2
.Это придет с Python3
там.Осторожно!Это изменение застало нас врасплох.И это было еще одной причиной для перехода на conda
, поскольку теперь мы можем легко переключаться между Python2
и Python3
в зависимости от проекта.