Я ищу правильный инструмент для решения следующей проблемы:
У меня есть данные, которые необходимо подвергнуть некоторой обработке, где каждый шаг может создавать промежуточные данные, которые сами по себе требуют обработки.Некоторая обработка важнее других;например, некоторые процессы создают большое (читай: недостижимое) количество задач с низким приоритетом, которые могут быть выполнены, пока система в противном случае не будет работать.Интуитивно понятно, что это можно смоделировать как приоритетную группу DAG.
Я ищу пакет / технологию / решение python, чтобы начать реализацию этой системы.Я сверился с Потрясающим списком конвейеров Python и внимательно посмотрел на airflow , но я начинаю думать, что это не сработает, потому что Airflow, похоже, предполагает, что прогоны DAG короткие.и у меня будет много, много задач с низким приоритетом в нескольких прогонах DAG, которые могут никогда не завершиться.
Небольшой, менее важный момент: эти прогоны DAG будут другими, потому что они будут расти по мере того, как будет отправляться больше данныхсистема, поэтому какое бы решение я ни придумал, оно должно было бы динамически генерировать группы DAG / задачи на основе шаблона.
Будет ли работать поток воздуха?Должен ли я посмотреть на что-то еще?Спасибо за вашу помощь.
edit: слово об управлении ресурсами - если возможно, с настраиваемым пулом рабочих (потоков, процессов, машин и т. Д.), Обрабатывающих приоритетные задачи для all запланированные прогоны DAG будут оптимальными.