Конвейер данных - выгрузка больших файлов из ответов API в AWS, после чего конечный пункт назначения находится на сервере SQL Server. - PullRequest
0 голосов
/ 05 февраля 2019

Я новичок в создании конвейеров данных, где дамп файлов в облаке - это один или несколько шагов в потоке данных.Наша цель - хранить большие, необработанные наборы данных из различных API в облаке, а затем извлекать только то, что нам нужно (сводные данные этих необработанных данных), и хранить это в нашем локальном SQL Server для отчетов и аналитики.Мы хотим сделать это максимально простым, логичным и надежным способом.Мы выбрали AWS в качестве нашего облачного провайдера, но, поскольку мы на начальных этапах, не привязаны к какой-либо конкретной архитектуре / сервисам.Поскольку я не являюсь экспертом ни в облаке, ни в AWS, я решил опубликовать свою мысль о том, как мы можем достичь нашей цели, и посмотреть, есть ли у нас какие-либо советы для нас.Имеет ли смысл эта архитектура для нашего конвейера данных?Существуют ли альтернативные сервисы или потоки данных, на которые мы должны обратить внимание?Заранее спасибо.

1) Сбор данных из нескольких источников (с использованием API)

2) Дамп ответов от API в сегменты S3

3) Использование сканеров клея для создания каталога данных данныхв сегментах S3

4) Использование Athena для запроса сводок данных в S3

5) Сохранение сводок данных, полученных по запросам Athena, в локальном SQL Server

Примечание:Мы запрограммируем весь конвейер данных, используя Python (который кажется хорошим и легким вызовом, независимо от того, какие сервисы AWS мы используем как boto3, довольно удивительно из того, что я видел до сих пор).

1 Ответ

0 голосов
/ 06 февраля 2019

Вы можете использовать клеевые задания (pyspark) для # 4 и # 5.Вы можете автоматизировать поток, используя триггеры клея

...