Лучший график для нескольких заданий ETL с зависимостями - PullRequest
0 голосов
/ 18 июня 2019

Я планирую задания ETL, которые принимают данные из mysql, преобразуют, а затем сбрасывают их обратно в mysql. Большинство заданий занимают меньше минуты, но некоторые задания занимают несколько минут.
Некоторые из рабочих мест имеют зависимости, например задание A может воссоздать таблицу, которая является входом для задания B, поэтому задание B зависит от A. Существуют также относительно сложные зависимости, например, задание C зависит от задания A, в то время как задание D зависит от задания B, и, наконец, задание E зависит как от C, так и от D.

Каков наилучший график для этих рабочих мест?
Я хочу избежать одновременного чтения / записи на одних и тех же таблицах. Не уверен, чего еще мне следует избегать ...

В настоящее время я разносил их по времени выполнения, умноженному на запас прочности. Это работало хорошо, особенно когда у меня было только менее 10 рабочих мест. Теперь он становится все более загруженным при одновременном запуске нескольких заданий, и бывают редкие случаи, когда одно задание не завершается до следующего зависимого задания и зависает остальные зависимые задания.
Я думал об их разнесении, чтобы зависимые задания не выполнялись одна за другой. Какие-либо установленные методы сделать это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...