В настройках Airflow DataprocClusterCreateOperator:
У нас есть возможность установить тип основного диска для основного и рабочего диска на pd-ssd?
pd-ssd
По умолчанию установлено значение standard.
standard
Я изучал документацию - я не нашел никаких параметров.
К сожалению, нет возможности изменить тип диска в DataprocClusterCreateOperator.
DataprocClusterCreateOperator
В Google API это доступно, если вы передадите параметр в https://cloud.google.com/dataproc/docs/reference/rest/v1/projects.regions.clusters#diskconfig
Я попытаюсь добавить эту функцию и должен быть доступен в Воздушный поток 1.10.1 или Воздушный поток 2.0 .
На данный момент вы можете создать плагин Airflow, который изменяет текущий DataprocClusterCreateOperator.
Похоже, есть два поля в отношении этого:
master_machine_type: Compute engine machine type to use for the master node worker_machine_type: Compute engine machine type to use for the worker nodes
Я обнаружил, что это просто просмотр исходного кода здесь (это для последней версии, но не было предоставлено никакой версии, поэтому я предположил последнюю версию):
https://airflow.readthedocs.io/en/latest/_modules/airflow/contrib/operators/dataproc_operator.html