Когда использовать спектр Amazon Redshift через AWS Glue ETL для запроса данных Amazon S3 - PullRequest
0 голосов
/ 13 сентября 2018

Поскольку AWS Glue ETL может быть сценарием Python, его можно использовать для выполнения запросов SQL с использованием интерфейсов базы данных, а данные можно загружать из Amazon S3 в DynamicFrame.Я пытаюсь понять, когда выгодно использовать спектр Amazon Redshift для запроса данных S3.

1 Ответ

0 голосов
/ 13 сентября 2018

AWS Glue используется для сбора метаданных (сканирования) и для ETL. Это не для отчетности или аналитики. Он может применять очень сложные преобразования (идеально подходит для сложных требований ETL).

Redshift Spectrum в основном используется для создания отчетов и анализа данных, хранящихся в S3, обычно в сочетании с данными, хранящимися в Redshift. Однако МОЖЕТ также использоваться для простого ETL. Гораздо проще установить и использовать, чем Glue, если вам просто нужен простой тип ETL.

Есть еще одна опция, которую вы не упомянули: амазонка Athena, это отличный инструмент для выполнения запросов непосредственно к данным S3. Он похож на Redshift Spectrum, но обычно быстрее и дешевле, в зависимости от вашего варианта использования. Он не может объединить данные S3 с данными Redshift.

...