Я хотел отправить задание PySpark в кластере Datapro c, работающем по умолчанию Python 3. Я хотел инициализировать среду с помощью имеющегося у меня виртуального env.
Я пробовал два способа. Первый - заархивировать весь venv as, загрузить его как архив и отправить в кластер. Но моя работа не могла найти зависимости. например,
gcloud dataproc jobs submit pyspark --project=** --region=** --cluster=** \
--archives gs://**/venv.zip#venv \
--properties spark.pyspark.driver.python=venv/bin/python \
gs://****.main.py
Второй метод заключался в том, что я пытался сказать искре создать для меня виртуальный env и установить требования из предоставленного мне файла требований, как указано в ссылке
Pyspark с Virtual env
Но оба подхода не удались. Кто-нибудь может помочь? Кроме того, я не хочу использовать go сценарий пост-инициализации Datapro c. Я бы очень хотел этого избежать.