Я пытаюсь развернуть «кластер» Datapro c с одним узлом в GCP, который устанавливает дополнительные пакеты как из conda-forge
, так и из настраиваемого канала Conda. Я выполняю следующую команду gcloud:
gcloud beta dataproc clusters create MY_CLUSTER_NAME \
--enable-component-gateway \
--bucket MY_GCS_BUCKET \
--region us-central1 \
--subnet default \
--zone us-central1-a \
--single-node \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--image-version 1.5-ubuntu18 \
--properties spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4,spark-env:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4 \
--optional-components ANACONDA,JUPYTER \
--max-idle 7200s \
--scopes 'https://www.googleapis.com/auth/cloud-platform' \
--project MY_PROJECT_ID \
--metadata='CONDA_PACKAGES=pandas matplotlib seaborn scikit-learn MY_CUSTOM_PACKAGE' \
--metadata='CONDA_CHANNELS=conda-forge https://MY_CUSTOM_CONDA_CHANNEL'
Я подтвердил, что могу conda install -c https://MY_CUSOMT_CONDA_CHANNEL MY_CUSTOM_PACKAGE
локально, и что другие пакеты устанавливаются. При поиске в журналах кластера я не нашел записей об установке дополнительных пакетов conda.
Вопросы:
- Где я могу найти журналы, которые помогут мне отладить это проблема?
- Что-то не так с приведенной выше командой?