Обратное заполнение DAG AirFlow для дополнительных исторических дат - PullRequest
0 голосов
/ 28 февраля 2019

У меня есть DAG AirFlow, которая копирует данные из моей базы данных Google BigQuery в другой набор данных, и она работает нормально.

Я хочу скопировать все существующие таблицы, но случайно установил дату начала на один год позже, в результате чего в моем новом наборе данных не будет данных за год.Чтобы попытаться это исправить, я установил дату начала еще на один год и вручную запустил группу обеспечения доступности баз данных, однако она не заполняет таблицы должным образом - вместо этого группа обеспечения доступности баз данных продолжает работать.

default_args = {
    'owner': 'airflow',
    'depends_on_past': True,
    'start_date': datetime(2016, 9, 27),
    'end_date': datetime(2017, 9, 27),
    'email': ['xxx@xxx.com'],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 5,
    'retry_delay': timedelta(minutes=2)

Чтоявляется правильным процессом для изменения даты начала и сбора данных, которые не были связаны с первой датой начала?

1 Ответ

0 голосов
/ 28 февраля 2019

Поэтому, когда бы нам ни пришлось изменить start_date, мы просто переименовываем даг, чтобы избежать проблем с планировщиком, поскольку мы считаем, что это самый простой и наименее разрушительный подход.

Я знаю, что не стоитЭто не просто ссылки на другие страницы, но подход переименования dag_id также упоминается в разделе «Воздушный поток» с 3-й по последнюю точку, однако в нем конкретно упоминается использование этого подхода при изменении обоих на * 1007.* и interval, учитывая, что планировщик использует обе эти части информации, чтобы выяснить, когда делать DagRun:

https://cwiki.apache.org/confluence/display/AIRFLOW/Common+Pitfalls

Опять же, мы просто идем с переименованиемподход, и это работает для нас.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...