Ниже приведена команда, которую я использовал для создания кластера dataproc. Здесь есть два сценария инициализации. (1) jupyter.sh
(2) my_initialize.sh
gcloud dataproc clusters create dproc \
--subnet default --zone us-west1-a --project myproject \
--initialization-actions gs://dataproc-initialization-actions/jupyter/jupyter.sh,gs://mydataproc/my_initialize.sh \
--master-machine-type n1-standard-8 --master-boot-disk-size 40 \
--worker-machine-type n1-standard-8 --worker-boot-disk-size 40 --num-workers 4
Следующее есть в my_initialize.sh
#!/usr/bin/env bash
pip install --upgrade google-cloud-bigquery
Когда мы устанавливаем jupyter.sh, я считаю, что pip уже установлен.
По какой-то причине создание кластера не удалось с ошибкой как
строка 2: команда pip не найдена.