USECASE
У нас есть локальная установка Hadoop, и мы используем Power BI в качестве инструмента визуализации BI. То, что мы делаем в настоящее время для получения данных о Powerbi, выглядит следующим образом.
- Копирование данных из локального объекта в BLOB-объект Azure (наше локальное расписание делает это, как только данные будут готовы в Hive)
- Данные из BLOB-объекта Azure затем копируются в Azure-DataWarehouse / Azure-SQL
- Обновление куба в Azure AAS, AAS извлекает данные из хранилища данных Azure / SQL
Для выполнения шагов 2 и 3 мы в настоящее время запускаем веб-сервер в Azure, и конечные точки настроены на несколько параметров, таких как имя таблицы, расположение файла Azure, информация о кубе и т. Д.
Пример http запроса:
http://azure -web-сервер-планировщик / CopyData? Из = блоб & к = & fromloc хранилищ данных, = myblob / данных / today.csv & totable = mydb.mytable
Здесь веб-серверы извлекают значения из переменных (from, fromloc, to, totable) и выполняют копирование. Мы сделали это, поскольку у нас было много таблиц, и все они могли использовать одну и ту же функцию.
Теперь у нас накапливается прецеденты (повторные попытки, потоки управления, оповещения по электронной почте, мониторинг), и мы ищем облачную альтернативу, чтобы выполнить работу по планированию за нас, мы все равно хотели бы достичь конечной точки HTTP, подобной приведенной выше. ,
Одной из альтернатив, которые мы проверяли до сих пор, является фабрика данных Azure, в которой создаются конвейеры для выполнения описанных выше шагов и запускаются ADF с использованием конечных точек http.
Проблемы
- Как мы можем взять параметры из пост-вызова http и сделать его доступным как пользовательские переменные [1], это требуется в конвейере, чтобы мы могли написать функцию для каждого шага {2, 3}, и функция может принять эти параметры, мы не хотим создавать ADF для каждой таблицы.
- Как мы можем обнаружить сбои на этапах АПД и отправлять оповещения по электронной почте во время сбоев?
- Какие есть другие варианты, кроме ADF, для этого в Azure?
[1] https://docs.microsoft.com/en-us/azure/data-factory/control-flow-system-variables