Моделирование хранилища данных: хранилище данных и постоянная промежуточная область - PullRequest
3 голосов
/ 20 января 2020

Рассмотрим следующие две архитектуры DWH:

DWH с хранилищем необработанных данных, слои:

  • Исходные системы
  • Область подготовки ( усеченный при каждой загрузке, точная схема исходных таблиц)
  • Raw Data Vault (смоделировано как Data Vault, содержит историю записей, хабы / sats / ссылки, смоделированные по структуре исходных систем, без применения бизнес-правил)
  • киоски данных (размерные модели, применяемые бизнес-правила)

DWH с постоянной областью подготовки (называемой PSA или HDA), уровни:

  • Исходные системы
  • Промежуточная область (усеченная при каждой загрузке, точная схема исходных таблиц)
  • PSA (содержит историю записей, схему исходных таблиц + столбцы date_load / date_load_end et c.)
  • витрины данных (размерные модели, применяемые бизнес-правила)

Есть ли у концепции необработанного хранилища данных какие-либо преимущества по сравнению с концепцией PSA? По моему мнению, моделирование Data Vault добавляет ненужную сложность с точки зрения ETL, а также снижает производительность.

Трудно найти действительно хороший ответ на этот вопрос, какие-либо мысли?

Спасибо !

Ответы [ 2 ]

0 голосов
/ 31 марта 2020

Добавленная сложность соответствует реляционной модели, представленной ранее в случае хранилища данных. Я предполагаю, что это зависит от того, на каком уровне вы хотите смоделировать свои данные и сделать их многократно используемыми в разных вариантах использования, что приведет к различным витринам данных. Я имею в виду, что витрины данных предназначены для конкретных c бизнес-кейсов, а модель хранилища данных более универсальна (модель предприятия). Следовательно, витрины данных, основанные на модели DV, вообще не нуждаются в физической материализации каких-либо данных. Можно настроить слой представлений, которые выглядят как таблицы звездной схемы, но на самом деле имеют:

•   Zero maintenance cost.
•   Zero storage costs.
•   High flexibility.

Кроме того, определенно приятно знать, как данные связаны в более общем смысле (организация широкий) - если эта информация и упомянутые преимущества оправдывают дополнительные усилия по созданию модели DV, судить сложно.

0 голосов
/ 05 марта 2020

Data Vault и Persistent Staging Area звучат для меня как яблоки и груши - их трудно сравнивать. Вы не должны пытаться определить Data Vault для захвата исходных данных, не зная бизнес-онтологию - в противном случае вы создаете хранилище исходной системы, которое не приносит или мало приносит пользу бизнесу. Построение хранилища данных на PSA или озере данных имеет для меня гораздо больше смысла. Получение данных в виде образа исходных систем, а затем пошаговое создание устойчивого сбора данных из них.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...