Какой будет хороший подход для переноса данных Aurora в Redhift DWH? - PullRequest
0 голосов
/ 29 апреля 2020

Нам необходимо переместить и объединить данные из различных баз данных Aurora в Redshift.

Поскольку наши конечные точки - это AWS сервисы, мы изучаем Glue, Pipeline, а также Matillion.

Это клей предназначен для использования в «традиционных ETL», как этот? Можно ли использовать клей для создания и заполнения таблиц фактов и измерений «в полете»?

Я прочитал, что обычным явлением будет преобразование данных с использованием механизма зажигания apache, на котором работает Glue → перемещение данных в S3 → перемещение данных в Redshift.

Зачем нужно переместить данные в корзину после применения dim / fact logi c?

Практично ли создавать эти преобразования dim / fact с использованием Python / Scala (поскольку Glue не имеет преобразований пользовательского интерфейса) ?

Я также узнаю, что в некоторых случаях более эффективно хранить данные в Redshift, сохраняя ту же структуру, что и источник (без фактов / тусклости). Есть ли правило, чтобы попытаться выяснить, когда это произойдет?

Матиллион выглядит хорошим вариантом (похожим на SSIS), но выглядит немного дороже.

Спасибо за вашу помощь.

1 Ответ

0 голосов
/ 30 апреля 2020

Если ваши базы данных Aurora основаны на Postgres, то я рекомендую начинать с Федеративный запрос Redshift . FQ позволяет напрямую запрашивать таблицы Aurora Postgres из Redshift. Используя FQ, вы можете настроить простой процесс syn c для переноса данных в Redshift из Aurora (см. Эти пример SP ).

Если ваши базы данных Aurora основаны на MySQL или объемы ваших данных очень велики, вы можете начать с экспорта данных из Aurora в S3 и затем загрузки экстрактов в Redshift .

По мере знакомства с Redshift вы можете добавлять ключи распределения и сортировки в таблицы, чтобы повысить производительность. Redshift Advisor предложит эффективные ключи распределения и ключи сортировки на основе выполненных вами запросов.

Этот процесс должен позволить вам быстро начать работу с Redshift, а затем вы сможете начать использовать Glue или Matillion позже, когда вам понадобятся их уникальные и определенные способности c.

...