Question

Я оцениваю, как реализовать решение для управления данными с Azure Каталог данных для конвейера пакетного преобразования озера данных. Ниже мой подход к этому. Любые идеи, пожалуйста?

Фабрика данных не может захватить происхождение от источника к озеру данных.
Я знаю, что каталог данных не может поддерживать бизнес-правила для обработки данных в данных. Lake.
Сначала подача данных осуществляется вручную из Azure Каталога данных в соответствии с заданным бизнес-глоссарием и т. Д. c. Или Когда исходные данные загружаются в хранилище озера данных, ресурс, который будет автоматически создан в соответствии с заданным бизнес-глоссарием (если он не существует).
Необработанные данные очищаются, классифицируются и помечаются во время легкого преобразования на озере. Таким образом, связанные теги должны быть созданы в каталоге данных. (это пользовательское кодирование, вызывающее Azure API REST каталога данных)
Затем происходит обработка ETL. Новые активы данных, которые будут созданы с пометкой в каталоге данных. Инструменты основаны на Spark. (это пользовательское кодирование с вызовом Azure API REST каталога данных). Наконец, в каталоге данных будут отображаться все активы данных, созданные в конвейере данных пакетного преобразования озера данных с указанным бизнес-глоссарием c с правильными тегами.
Я пропускаю оперативные метаданные и полную линию, поскольку в предложениях Azure такого решения нет. это снова должно быть индивидуальным решением.

Я ищу лучшую практику. Цените ваши мысли.

Большое спасибо

Cengiz

Azure Подход к решению для управления данными для озер данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Azure Подход к решению для управления данными для озер данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы