Azure Подход к решению для управления данными для озер данных - PullRequest
1 голос
/ 04 мая 2020

Я оцениваю, как реализовать решение для управления данными с Azure Каталог данных для конвейера пакетного преобразования озера данных. Ниже мой подход к этому. Любые идеи, пожалуйста?

  1. Фабрика данных не может захватить происхождение от источника к озеру данных.
  2. Я знаю, что каталог данных не может поддерживать бизнес-правила для обработки данных в данных. Lake.
  3. Сначала подача данных осуществляется вручную из Azure Каталога данных в соответствии с заданным бизнес-глоссарием и т. Д. c. Или Когда исходные данные загружаются в хранилище озера данных, ресурс, который будет автоматически создан в соответствии с заданным бизнес-глоссарием (если он не существует).
  4. Необработанные данные очищаются, классифицируются и помечаются во время легкого преобразования на озере. Таким образом, связанные теги должны быть созданы в каталоге данных. (это пользовательское кодирование, вызывающее Azure API REST каталога данных)
  5. Затем происходит обработка ETL. Новые активы данных, которые будут созданы с пометкой в ​​каталоге данных. Инструменты основаны на Spark. (это пользовательское кодирование с вызовом Azure API REST каталога данных). Наконец, в каталоге данных будут отображаться все активы данных, созданные в конвейере данных пакетного преобразования озера данных с указанным бизнес-глоссарием c с правильными тегами.
  6. Я пропускаю оперативные метаданные и полную линию, поскольку в предложениях Azure такого решения нет. это снова должно быть индивидуальным решением.

Я ищу лучшую практику. Цените ваши мысли.

Большое спасибо

Cengiz

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...