Различия между хранилищем данных и размерным моделированием? - PullRequest
2 голосов
/ 19 апреля 2011

При моделировании хранилища данных, есть ли причина, по которой мы должны отдавать предпочтение Data Vault над Размерное моделирование ? Каковы основные различия между этими двумя?

Ответы [ 5 ]

12 голосов
/ 24 апреля 2011

Пространственное моделирование, на мой взгляд, все еще является наилучшей практикой для анализа и составления отчетов, и как видимая модель лучше всего понимается бизнес-пользователями.

Data Vault больше подходит для крупных корпоративных хранилищ данных, также рекомендованных Биллом Инмоном, но не подходит для анализа и составления отчетов, поскольку для создания виртуальных витрин данных вам все еще может понадобиться многомерное моделирование.Взгляните на некоторые блоги, такие как блоги Мартин Эверс, Хенни де Ноойер или Рональда Дамхофа.

Data Vault более гибок, проще добавлять новые источники, лучше контролировать и хранить все данные, поэтому вы всегда будете в курсебыть в состоянии всегда воссоздавать ваши DM.

Таким образом, можно сделать вывод, что идеальной ситуацией является использование Data Vault для хранилища корпоративных данных и моделирование размеров для ваших Datamarts.

2 голосов
/ 18 марта 2015

Я думаю, что сочетание этих двух факторов лучше всего подойдет большинству крупных организаций. Vault будет хорошим выбором для ODS среднего уровня, где меньшая структура будет способствовать гибкости и производительности. Затем данные могут быть извлечены из Vault Db для подачи в контекстно-ориентированные витрины данных измерений, которые поддерживают отчеты и анализ. В этом сценарии хранилище Db также может использоваться для поддержки более крупных типов анализа и анализа больших данных, которые требуют более глубокого понимания взаимосвязей данных.

2 голосов
/ 19 апреля 2011

Почему вы чувствуете, что вам нужен любой из них? В основном это жесткие шаблоны дизайна, используемые для продажи книг и учебных курсов. Миллионы людей считают, что без них они могут прекрасно жить. Что вам действительно нужно для проектирования хранилища данных - это те же хорошие навыки анализа и моделирования, которые необходимы для любой базы данных.

Если вы ищете полезный совет по созданию хранилища данных, посмотрите книги Билла Инмона. Если это ваш первый проект по бизнес-аналитике, обратитесь за помощью к специалисту в этой области, чтобы вы могли избежать некоторых распространенных ошибок.

1 голос
/ 19 апреля 2011

Предпочтение любого подхода, как правило, зависит от баланса опыта и мнения с потребностями и требованиями системы. Каждый подход к моделированию имеет определенные преимущества, когда он связан с различными ситуациями, поэтому вы должны оценить среду, с которой ваша модель будет взаимодействовать, при определении того, какой подход выбрать.

Высокотранзакционные системы, которые часто и единообразно добавляют данные, как правило, подходят для подхода многомерного моделирования. Распространенные примеры, используемые для его описания, обычно фокусируются на розничных и финансовых организациях, поскольку количество продаж или денежных операций, добавляемых с течением времени, соответствует понятиям Факт и Измерение.

0 голосов
/ 03 января 2016

@ Дэнни Шоу, это тоже мой опыт (хотя я относительно новичок в этой области - из ETL, поэтому мне интересно узнать мнение других людей о моем посте).

Я считаю, что важноУважайте, что требования ваших Клиентов меняются вместе с их «зрелостью», и что разные модели могут подходить лучше в разное время.

Мне кажется, что Data Vault обеспечивает эксплуатационную гибкость, тогда как существующие обсуждения (Kimball / Inmon) вращаютсябольше об «гибкости бизнеса» (из-за отсутствия лучшей терминологии).

Data Vault позволяет вам оставаться близко к источнику с точки зрения его гранулярных объектов.Это делает модель «проверяемой» и масштабируемой.Это помогает гибко использовать спецификации SOURCE.

Таким образом, он является полезным промежуточным звеном, например, в проектах миграции, служа основой для подачи более ориентированных на бизнес DWH / Datamarts, которые требуют интегрированного представления обоих старыхи новый.Однако мой опыт показывает, что если вы начнете заполнять Datamarts непосредственно из этой модели, у вас будет много объединений, особенно рекурсий, просто потому, что вы далеки от бизнес-концепций.Не совсем плохо в определенных базах данных, поэтому на выбор частично влияет программное обеспечение (например, Teradata любит присоединяться гораздо больше, чем Oracle).Однако, как правило, я чувствую, что если вам нужна гибкость в TARGET (бизнес), вы в конечном итоге вступаете в дискуссию inmon-kimball, и было бы неплохо начать рассматривать многомерное моделирование вместо хранилища данных на этой стороне.

Таким образом, часть входных данных в вашей оценке также должна быть: насколько стандартизированы бизнес-концепции?Использует ли вся компания одни и те же понятия KPI и Data?Если это не так, то для меня безопасным вариантом будет оставаться близко к источнику (особенно если их много) где-то в вашем хранилище данных.Если вы более зрелы, подготовьтесь к большей гибкости в требованиях к отчетности и перенесите производительность вашей модели данных на сторону отчетности.

Это не означает, что бизнес не может развиваться - просто он должен развиваться каквсе.Я считаю, что это более «зрелый» клиент, который знает, что он может делать со своими данными, имеет очень интегрированный и стандартизированный взгляд на свой бизнес с более и более сложными требованиями в отношении отчетности.Поэтому, если вам нужно моделировать гибкость при подаче данных, и у вас есть мощный набор инструментов ETL, вы также можете напрямую настроить свою модель данных так, чтобы она напоминала бизнес.

Подводя итог, я бы сказал, что каксреда BI становится более «зрелой», бизнес узнал, что он может делать с данными, и требования на этой стороне становятся более сложными.Data Vault не будет подходить на эту сторону.

Однако, если вы находитесь в процессе миграции (особенно с многолетними параллельными фазами) или в более молодой организации, где не все департаменты смотрят на свой бизнес черезте же взгляды, но (в ваших интересах) требования к отчетам довольно заметны, можно было бы использовать хранилище данных заранее и попытаться выяснить, можете ли вы напрямую подавать данные из них - возможно, добавив вкус к измерениям Кимбалла где-нибудьмежду.

...