Построение представлений MySQL таблиц в S3 Glue DataCatalog Binlog Replication - PullRequest
0 голосов
/ 16 марта 2020

Хорошо, вот что я пытаюсь сделать. В моей компании есть необходимость разгрузить все медленные запросы на реплики чтения на нашей БД Aurora MySQL (очень большая база данных, много таблиц и много нагрузки, много реплик чтения). Кроме того, мы хотим, чтобы в нашем потоке кликов, данных о событиях, которые все Datalake в S3 были зарегистрированы в Glue Data Catalog, можно было легко объединить с данными MySQL. Я хочу создать непрерывный дамп CD C таблиц binlog MySQL, используя что-то вроде читателя Maxwell Binlog или, возможно, AWS DMS, передаваемого в Kinesis, а затем выгружаемого в S3, возможно, с помощью Kinesis Firehose. В идеале, каждая таблица должна располагаться в отдельном разделе, поэтому, возможно, каждая таблица будет привязана к другому пожарному шлангу Kinesis. Затем я хочу создать представление данных, чтобы получить актуальное состояние базы данных, но запрашиваемое из S3 Datalake (может иметь некоторую задержку, например, 1 час). Кто-то делал это раньше? Я ищу наиболее экономически эффективное решение для AWS экосистемы.

...