Дата начала воздушного потока не работает, как запланировано - PullRequest
0 голосов
/ 06 ноября 2018

Я новичок здесь. Я хотел бы запланировать воздушный поток для запуска дельты в те же часы, например, 18: 50, без обратной засыпки данных.

Это то, что я установил на DAGS. Но он продолжает заполнять и загружает данные с 5 ноября 2018 года до настоящего времени. Как я могу изменить его, чтобы загрузить только дельта?

WORKFLOW_START_DATE = datetime(2018, 11, 5), 
WORKFLOW_SCHEDULE_INTERVAL = "50 18 * * *"

WORKFLOW_DEFAULT_ARGS = {
    'owner': 'admin',
    'depends_on_past': True,
    'start_date': WORKFLOW_START_DATE,
    'email': ['airflow@testing.com'],
    'email_on_failure': True,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5)
}

t1 = BashOperator(
    task_id='download',
    bash_command='-c "test_download.sh {{ execution_date.strftime("%d-%b-%Y") }}"',
    dag=dag)

1 Ответ

0 голосов
/ 06 ноября 2018

Используйте catchup_by_default=False в файле airflow.cfg или примените catchup=False к вашему тегу.

Пример как ниже:

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2015, 12, 1),
    'email': ['airflow@example.com'],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=5),
    'schedule_interval': '@hourly',
}

dag = DAG('tutorial', catchup=False, default_args=default_args)

Документация Ссылка : https://airflow.readthedocs.io/en/stable/scheduler.html#backfill-and-catchup

...