Использование pip в Jupyter привело к смерти ядра в кластере Google Datapro c - PullRequest
1 голос
/ 30 января 2020

Я создал кластер Datapro c со следующими командами:

gcloud beta dataproc clusters create my-cluster \
    --project my-project \
    --bucket my-bucket \
    --region my-region \
    --zone my-zone \
    --num-workers 5 \
    --service-account my-service-account \
    --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/connectors/connectors.sh,gs://goog-dataproc-initialization-actions-${REGION}/datalab/datalab.sh,gs://goog-dataproc-initialization-actions-${REGION}/python/conda-install.sh,gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh \
    --metadata gcs-connector-version=2.0.0 \
    --metadata bigquery-connector-version=1.0.0 \
    --scopes cloud-platform \
    --optional-components=ANACONDA,JUPYTER,ZEPPELIN,PRESTO \
    --metadata 'PIP_PACKAGES=numpy scipy pandas scikit-learn matplotlib seaborn' \
    --metadata 'CONDA_PACKAGES=tensorflow' \
    --image-version=1.4 \
    --properties '^#^spark:spark.jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar#spark:spark.jars.packages=org.apache.spark:spark-avro_2.12:2.4.4#zeppelin:zeppelin.notebook.gcs.dir=gs://${BUCKET}/notebooks/zeppelin/${CLUSTER_NAME}#dataproc:jupyter.notebook.gcs.dir=gs://${BUCKET}/notebooks/jupyter/${CLUSTER_NAME}'

Однако, когда я использую команду pip для обновления в кластере Jupyter: pip install --upgrade pip, это привело к смерти ядра Jupyter и перезапуск непрерывно, и делает Jupyter непригодным для использования. Я не понимаю, почему это произошло. Любые предложения или подсказки приветствуются.

1 Ответ

0 голосов
/ 31 января 2020

Вместо запуска pip install --upgrade pip в записной книжке необходимо написать действие инициализации , которое будет запускать эту команду во время запуска кластера на всех узлах кластера.

...