Создание Datamart с информацией GitHub - PullRequest
0 голосов
/ 03 января 2019

Я хотел бы создать Datamart с информацией GitHub с коммитами, запросами на получение, возвратами и т. Д.

GitHub предоставляет множество веб-крючков с этими событиями.Я пытаюсь создать архитектуру для обработки этих событий и загрузки ее в базу данных RDS.

Я думал об использовании шлюза API + Kinesis Firehose для передачи событий в S3.Затем используйте cron (например. https://airflow.apache.org/) для обработки этих файлов.

Минусы и плюсы:

(+) Это надежно, так как у нас есть простой API-шлюз + дамп Kineses дляS3.

(+) Легко перерабатывать, так как я использую Airflow

(-) Кажется, немного по архитектуре

(-) Это не будетdatamart в реальном времени.

Ребята, вы можете придумать и предложить другую архитектуру с PROS и CONS?

1 Ответ

0 голосов
/ 07 января 2019

Лично я бы пошел с:

API Gateway -> Lambda -> Kinesis Stream -> Kinesis Analytics

Это даст вам требование быть в режиме реального времени.

Затем вы можете разгрузить потоки на S3, используя Kinesis Firehose для любого объявления.-хок запрос.

...