Ответы
- Правильно ли я предполагаю, что задачи потока данных будут блокировать другие в Cloud Composer / Airflow? A: Отчасти да. Воздушный поток имеет параметр параллелизма в конфигурации, который определяет количество задач, которые должны выполняться одновременно в системе. Наличие блока задач в этом слоте может замедлить выполнение в системе, но эта проблема неизбежно возникает при увеличении количества задач и групп доступности баз данных. Вы можете увеличить это в конфигурации в зависимости от ваших потребностей
Есть ли способ запланировать работу без "ожидания до конца sh", используя встроенные операторы? (Я мог что-то упустить из виду) A: Да. Вы можете использовать
PythonOperator
, а в
python_callable
вы можете использовать ловушку потока данных для запуска задания в асинхронном режиме c (запускать и не ждать).
Есть ли простой способ написать это сам? Я имею в виду просто выполнить сценарий запуска bash, а затем задачу, которая проверяет, правильно ли выполнено задание, но в режиме перепланирования. A: Когда вы говорите «перенести», я предполагаю, что вы собираетесь повторить задание, которое ищет задание, которое проверяет, правильно ли выполнено задание. Если я прав, вы можете установить задачу на режим повтора и задержку, с которой вы хотите, чтобы повтор произошел.
Есть ли другой способ избежать блокировки других задач при выполнении заданий потока данных? По сути это асинхронная c операция, которая не должна занимать ресурсы. A: Я думаю, что я ответил на это во втором вопросе.