AWS: федерация данных для хранилища данных (запрашивать много источников одновременно)? - PullRequest
0 голосов
/ 25 января 2019

Вызов

Существует несколько групп инженеров BI, которым необходимо применять расширенную аналитику к данным, находящимся в различных хранилищах в AWS: S3, Dynamo DB, Aurora и т. Д. Это означает, что им нужно не только объединять данные из нескольких экземпляров одного хранилища. тип (например, базы данных RDS), но для сбора и объединения данных из разных типов хранилищ для сравнения (например, S3 и RDS).

Точнее, они отправляют специальные запросы, и этот запрос может включать различные типы хранилищ. Поэтому я ищу инструмент объединения данных, который можно использовать для решения задачи и эффективного развертывания в AWS (баланс между затратами, задержкой и пропускной способностью).

enter image description here

В идеале в системе также должен использоваться каталог данных, похожий на Hive-Metastore (например, предоставляемый чем-то вроде AWS Glue) (чтобы получить представление о данных для инженеров BI и ускорить выполнение запросов как минимум по S3)

Идеи

Первый вариант, который я вижу, это использовать EMR с Presto, развернутым на уровне публикации. Он предоставит подход MPP для объединения данных, будет интегрирован с каталогом данных Hive / Glue и предоставит REST API из коробки (по сравнению, скажем, с Spark SQL, которому для этого нужен Thrift (и он плохо масштабируется)) .

enter image description here

На первый взгляд это кажется рабочим решением, но, поскольку у меня нет производственного опыта с такими развертываниями, у меня есть ощущение, что могут быть проблемы с масштабируемостью, задержкой запросов и, конечно же, стоимостью Кластер EMR + Presto, особенно если по какой-то причине мне потребуется установить веб-сервер или API Gateway + Lambda для решения проблем безопасности или любой другой проблемы с предоставлением прямого доступа к Presto REST API ...

Дополнительные примечания

Существует вероятность, что вместо AWS Glue потребуется использовать Talend для каталогизации данных и оркестровки ELT. первая ссылка в Google по этой теме дает строку: «Никогда не пытайтесь использовать Presto с Talend».

Любые предложения по эталонной архитектуре, лучшие практики, альтернативы, даже просто идеи высоко ценятся!

...