Я на начальных этапах обучения Airflow. Я изучаю Airflow для создания простого конвейера данных ETL (ELT?) И нахожусь в процессе выяснения архитектуры конвейера (каких операторов мне следует использовать). Основы моего конвейера данных:
- Выполнение HTTP GET-запроса от API для необработанных данных.
- Сохранение необработанных JSON результатов в корзину GCP.
- Преобразование данных и сохранение в базе данных BigQuery.
... и конвейер будет запускаться один раз в день.
Как видно из названия, я пытаюсь определить, является ли SimpleHttpOperator или PythonOperator более подходящим для использования при выполнении запросов HTTP GET для данных. Из этого несколько связанного сообщения stackoverflow, сообщения stackoverflow , автор просто пришел к выводу:
Хотя я думаю, что теперь я собираюсь просто использовать PythonOperator
Кажется, достаточно просто написать сценарий с 10-20 строками кода python, который выполняет http-запрос, идентифицирует область памяти GCP и записывает в эту корзину. Однако я не уверен, что это лучший подход для задач такого типа (вызовите api -> get data -> write to gcp storage bucket).
Любая помощь или мысли по этому поводу, любые примеры ссылок на создание подобных конвейеров и т. Д. c. было бы очень полезно. Заранее спасибо