Какие продукты Azure необходимы для промежуточной базы данных? - PullRequest
0 голосов
/ 07 ноября 2018

У меня есть несколько API внешних данных, к которым я обращаюсь с помощью некоторых скриптов Python. Мои сценарии запускаются с локального сервера, преобразуют данные и сохраняют их в базе данных SQL Server на том же сервере. Я полагаю, что это элементарная система ETL, работающая на Python и T-SQL.

Система собирается немного вырасти с появлением новых API и потребует более сложных конвейеров данных (например, некоторые данные API будут выделены более чем в одну таблицу). Я думаю, что сейчас самое время перенести систему на Azure (мы тесно интегрированы с Microsoft, поэтому это должен быть Azure!).

Я потратил несколько дней на исследование продуктов Azure, которые позволили бы мне запускать скрипты Python для доступа к данным из веб-API и сохранения обработанных данных в облачной базе данных. Я ищу советы о том, какие продукты Azure другие люди использовали для подобных работ. На данный момент мне кажется, что понадобится:

  1. База данных SQL Azure для хранения обработанных данных, к которым могут обращаться различные коллеги.
  2. Azure Data Factory для управления, регистрации и планирования конвейерных заданий, а также для запуска моих пользовательских сценариев Python (это вообще возможно?).
  3. Пакет Azure для запуска вышеупомянутых скриптов Python, но я не уверен в этом.

Я хочу в принципе составить предложение и начать думать о затратах, но было бы хорошо услышать от кого-то, кто сделал что-то подобное - я на правильном пути или совершенно не в себе? Должен ли я просто остаться на месте? Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 17 ноября 2018

Azure SQL Warehouse следует использовать, если объем данных, которые вы хотите загрузить, указан в петабайтах. Кроме того, хранилище данных Azure не предназначено для сложных преобразований. Я бы порекомендовал его для простой загрузки данных с PolyBase.

0 голосов
/ 08 ноября 2018
  1. База данных SQL Azure, хранилище данных SQL Azure хороши для реляционных данных. А если вы хотите использовать NoSQL, вы можете использовать Azure Cosmos DB. Если вы хотите использовать файлы для хранения данных, вы можете использовать Azure Data Lake.
  2. Для сценариев Python вы можете использовать настраиваемое действие или Блоки данных для фабрики данных Azure.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...