Оценить ограниченные запросы API в Cloud Composer - PullRequest
0 голосов
/ 24 сентября 2018

Я планирую проект, в рамках которого я буду использовать (ограниченный по скорости) API Reddit и хранить данные в GCS и BigQuery.Изначально облачные функции были бы выбором, но мне пришлось бы создать реализацию хранилища данных для управления «псевдо» очередью запросов и GAE для заданий cron.

Делать все в потоке данных не имеет смысла, потому чтоне рекомендуется делать внешние запросы (т. е. обращаться к Reddit API) и постоянно запускать одно задание.

Могу ли я использовать Cloud Composer для чтения полей из Google Sheet, а затем создать очередь запросов на основе GoogleЛист, затем попросите очередь задач выполнить эти запросы, сохранить их в GCS и загрузить в BigQuery?

1 Ответ

0 голосов
/ 23 октября 2018

Похоже на законный вариант использования Composer, кроме того, вы также можете использовать концепцию pool в Airflow для управления одновременными вызовами к одной и той же конечной точке (например, Reddit API).

...