Экономичная возможность выполнения многих задач рабочего процесса - PullRequest
0 голосов
/ 07 марта 2019

поэтому у меня есть эти DAG Airflow, состоящие из нескольких задач. По сути, каждая задача выполняет несколько независимых этапов анализа для данного фрагмента кода, и, наконец, решается, можно ли использовать этот фрагмент с нормативной точки зрения.

Каждая задача - в зависимости от фрагмента кода - довольно короткая (максимум 1-25 минуты) и в основном сводится к выполнению какого-либо внешнего инструмента анализа (с открытым исходным кодом и внутри) и обработке выходных данных этого инструмента.

Все это прекрасно работает на моей машине для разработки, но, поскольку мы анализируем довольно много фрагментов кода в рабочее время (~ 50 в час), а не в нерабочее время, я хотел бы получить все это и работает где-то в облаке (мне все равно, если на Google Cloud, AWS или Azure).

Итак, мой вопрос, каков был бы экономичный способ запуска и запуска в облаке? Я думал об использовании облачного компоновщика Google и этих виртуальных виртуальных машин (которые отключаются случайным образом, но стоят очень дешево), но кажется, что я не могу использовать PVM вместе с облачным компоновщиком.

Поскольку различные этапы в группе обеспечения доступности баз данных независимы, PVM будут хороши для IMO - если во время выполнения задачи они будут закрыты, я просто повторю эту задачу на другом PVM.

Спасибо

1 Ответ

0 голосов
/ 09 марта 2019

В Google Cloud есть несколько вариантов для вас.

  1. Запуск автономного воздушного потока на виртуальной машине Compute Engine
  2. Запуск Cloud Composer

Лучшим вариантом будет сочетание того, сколько вы хотите потратить и какие функции вам нужны.Самостоятельно управляемый Airflow - отличный вариант, если вы хотите иметь очень низкую стоимость (менее 100 долларов в месяц) и при этом можете самостоятельно управлять ВМ и брать на себя риск того, что SLA от Google будет покрывать только ВМ, поэтому если Airflowнеисправности, вам придется обнаружить и исправить это.

Преимущество Composer заключается в том, что он интегрирован, и вы получаете такие вещи, как IAM, Stackdriver, прокси WebUI и так далее.Однако вы будете платить больше за услугу, поскольку она управляется.В настоящее время нет способа запустить Composer с вытесняемыми виртуальными машинами.

Ваш вариант использования звучит так, как будто он может работать на кластере размера по умолчанию в Cloud Composer.

Стоит отметить, что если вы идетеСамостоятельное управление также дает вам преимущество, которое Google активно вносит в Airflow, поэтому такие вещи, как операторы, должны работать с текущими API продуктов.Google также регулярно предоставляет исправления и новых операторов.

...