Здесь есть несколько вещей:
Изображение 1.3
(по умолчанию) использует conda с Python 2.7. Я рекомендую переключиться на 1.4
(--image-version 1.4
), который использует conda с Python 3.6.
Если эта библиотека понадобится рабочим, вы можете использовать это действие инициализации, чтобы применить изменение последовательно для всех узлов.
Pyspark в настоящее время не поддерживает virtualenvs, но эта поддержка идет. В настоящее время вы можете запустить программу pyspark из virtualenv, но это не означает, что работники будут работать внутри virtualenv. Можно ли применить ваши изменения к базовой среде conda без virtualenv?
Дополнительную информацию можно найти здесь https://cloud.google.com/dataproc/docs/tutorials/python-configuration