Я оцениваю, как реализовать решение для управления данными с Azure Каталог данных для конвейера пакетного преобразования озера данных. Ниже мой подход к этому. Любые идеи, пожалуйста?
- Фабрика данных не может захватить происхождение от источника к озеру данных.
- Я знаю, что каталог данных не может поддерживать бизнес-правила для обработки данных в данных. Lake.
- Сначала подача данных осуществляется вручную из Azure Каталога данных в соответствии с заданным бизнес-глоссарием и т. Д. c. Или Когда исходные данные загружаются в хранилище озера данных, ресурс, который будет автоматически создан в соответствии с заданным бизнес-глоссарием (если он не существует).
- Необработанные данные очищаются, классифицируются и помечаются во время легкого преобразования на озере. Таким образом, связанные теги должны быть созданы в каталоге данных. (это пользовательское кодирование, вызывающее Azure API REST каталога данных)
- Затем происходит обработка ETL. Новые активы данных, которые будут созданы с пометкой в каталоге данных. Инструменты основаны на Spark. (это пользовательское кодирование с вызовом Azure API REST каталога данных). Наконец, в каталоге данных будут отображаться все активы данных, созданные в конвейере данных пакетного преобразования озера данных с указанным бизнес-глоссарием c с правильными тегами.
- Я пропускаю оперативные метаданные и полную линию, поскольку в предложениях Azure такого решения нет. это снова должно быть индивидуальным решением.
Я ищу лучшую практику. Цените ваши мысли.
Большое спасибо
Cengiz