Datapro c не устанавливает пользовательский пакет Conda из пользовательского канала Conda - PullRequest
3 голосов
/ 13 июля 2020

Я пытаюсь развернуть «кластер» Datapro c с одним узлом в GCP, который устанавливает дополнительные пакеты как из conda-forge, так и из настраиваемого канала Conda. Я выполняю следующую команду gcloud:

gcloud beta dataproc clusters create MY_CLUSTER_NAME \
  --enable-component-gateway \
  --bucket MY_GCS_BUCKET \
  --region us-central1 \
  --subnet default \
  --zone us-central1-a \
  --single-node \
  --master-machine-type n1-standard-4 \
  --master-boot-disk-size 500 \
  --image-version 1.5-ubuntu18 \
  --properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
  --optional-components ANACONDA,JUPYTER \
  --max-idle 7200s \
  --scopes 'https://www.googleapis.com/auth/cloud-platform' \
  --project MY_PROJECT_ID \
  --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
  --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'

Я подтвердил, что могу conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE локально, и что другие пакеты устанавливаются. При поиске в журналах кластера я не нашел записей об установке дополнительных пакетов conda.

Вопросы:

  1. Где я могу найти журналы, которые помогут мне отладить это проблема?
  2. Что-то не так с приведенной выше командой?

1 Ответ

2 голосов
/ 13 июля 2020

Похоже, вы не добавляли действие conda-install.sh init при создании кластера, подробнее см. В этом do c, например:

gcloud dataproc clusters create my-cluster \
    --image-version=1.4 \
    --region=${REGION} \
    --metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
    --metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL' \
    --initialization-actions=gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh

You должен быть в состоянии найти журнал действий инициализации по адресу /var/log/dataproc-initialization-script-0.log, подробнее см. здесь do c.

...