Я хотел бы создать Datamart с информацией GitHub с коммитами, запросами на получение, возвратами и т. Д.
GitHub предоставляет множество веб-крючков с этими событиями.Я пытаюсь создать архитектуру для обработки этих событий и загрузки ее в базу данных RDS.
Я думал об использовании шлюза API + Kinesis Firehose для передачи событий в S3.Затем используйте cron (например. https://airflow.apache.org/) для обработки этих файлов.
Минусы и плюсы:
(+) Это надежно, так как у нас есть простой API-шлюз + дамп Kineses дляS3.
(+) Легко перерабатывать, так как я использую Airflow
(-) Кажется, немного по архитектуре
(-) Это не будетdatamart в реальном времени.
Ребята, вы можете придумать и предложить другую архитектуру с PROS и CONS?