У меня есть кластер gce airflow (composer) с кучей рабочих:
$ kubectl get pods
NAME READY STATUS RESTARTS AGE
airflow-redis-0 1/1 Running 0 7h
airflow-scheduler 2/2 Running 0 7h
airflow-sqlproxy 1/1 Running 0 8h
airflow-worker 50/50 Running 0 7h
composer-fluentd-daemon 1/1 Running 0 7h
composer-fluentd-daemon 1/1 Running 0 7h
У меня также есть куча уникальных постоянных томов NFS, в которых есть данные, требующие обработки.Существует ли способ динамического монтирования разных томов NFS для каждого из соответствующих рабочих.
В качестве альтернативы, возможно ли, чтобы DockerOperator, вызываемый внутри работника, монтировал том NFS, относящийся к его конкретной рабочей нагрузке.
Теоретически рабочий процесс будет выглядеть следующим образом: Spin up 1x worker per Dataset
> Get Dataset
> Run Dataset through Model
> Dump results
Один из способов сделать это - загрузить набор данных в данный модуль, который его обрабатывает.;однако эти наборы данных занимают несколько сотен гигабайт в год, и их нужно будет многократно обрабатывать для разных моделей.
В конечном итоге мы планируем поместить все эти данные в BigTable, но мне нужно продемонстрировать концепцию с использованием томовс несколькими сотнями гигабайт данных, прежде чем мы получим зеленый свет, чтобы раскрутить кластер BigTable с несколькими ТБ данных в нем.
Вклад приветствуется.Сказать мне, что я делаю это неправильно с лучшим решением, также является жизнеспособным ответом.