Нам необходимо переместить и объединить данные из различных баз данных Aurora в Redshift.
Поскольку наши конечные точки - это AWS сервисы, мы изучаем Glue, Pipeline, а также Matillion.
Это клей предназначен для использования в «традиционных ETL», как этот? Можно ли использовать клей для создания и заполнения таблиц фактов и измерений «в полете»?
Я прочитал, что обычным явлением будет преобразование данных с использованием механизма зажигания apache, на котором работает Glue → перемещение данных в S3 → перемещение данных в Redshift.
Зачем нужно переместить данные в корзину после применения dim / fact logi c?
Практично ли создавать эти преобразования dim / fact с использованием Python / Scala (поскольку Glue не имеет преобразований пользовательского интерфейса) ?
Я также узнаю, что в некоторых случаях более эффективно хранить данные в Redshift, сохраняя ту же структуру, что и источник (без фактов / тусклости). Есть ли правило, чтобы попытаться выяснить, когда это произойдет?
Матиллион выглядит хорошим вариантом (похожим на SSIS), но выглядит немного дороже.
Спасибо за вашу помощь.