Я создал кластер Datapro c со следующими командами:
gcloud beta dataproc clusters create my-cluster \
--project my-project \
--bucket my-bucket \
--region my-region \
--zone my-zone \
--num-workers 5 \
--service-account my-service-account \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/connectors/connectors.sh,gs://goog-dataproc-initialization-actions-${REGION}/datalab/datalab.sh,gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh,gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh \
--metadata gcs-connector-version=2.0.0 \
--metadata bigquery-connector-version=1.0.0 \
--scopes cloud-platform \
--optional-components=ANACONDA,JUPYTER,ZEPPELIN,PRESTO \
--metadata 'PIP_PACKAGES=numpy scipy pandas scikit-learn matplotlib seaborn' \
--metadata 'CONDA_PACKAGES=tensorflow' \
--image-version=1.4 \
--properties '^#^spark:spark.jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar#spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4#zeppelin:zeppelin.notebook.gcs.dir=gs://${BUCKET}/notebooks/zeppelin/${CLUSTER_NAME}#dataproc:jupyter.notebook.gcs.dir=gs://${BUCKET}/notebooks/jupyter/${CLUSTER_NAME}'
Однако, когда я использую команду pip для обновления в кластере Jupyter: pip install --upgrade pip
, это привело к смерти ядра Jupyter и перезапуск непрерывно, и делает Jupyter непригодным для использования. Я не понимаю, почему это произошло. Любые предложения или подсказки приветствуются.