Я создал кластер в Google Cloud Platform Datapro c с приведенным ниже фрагментом кода:
gcloud dataproc clusters create $SOLO \
--project $PROJ \
--bucket $STORAGE \
--region $REGION \
--image-version 1.4-ubuntu18 --single-node \
--master-machine-type n1-standard-8 \
--master-boot-disk-type pd-ssd --master-boot-disk-size 100 \
--initialization-actions gs://goog-dataproc-initialization-actions-$REGION/python/pip-install.sh \
Из документации Google здесь , n1-standard-8
имеет 8 виртуальных ЦП .
У меня есть сценарий PySpark, который содержит приведенный ниже код:
import pyspark
sc = pyspark.SparkContext.getOrCreate()
print(sc.defaultParallelism)
Когда я отправляю этот сценарий PySpark в кластер, журнал заданий показывает, что параллелизм содержимого Spark по умолчанию равен 2 .
Почему sc.defaultParallelism
возвращает 2, а не 8?