Хранилище данных или элеваторы - PullRequest
0 голосов
/ 24 апреля 2019

В настоящее время у нас есть 12 различных баз данных, и 7 из них являются размерными.Мы являемся некоммерческой организацией, основанной на знаниях, где у нас есть базы данных, основанные на типе заболевания, которое есть у человека.

например.наши базы данных выглядят как

  1. ВИЧ
  2. Гепатит С
  3. Менингит

и т. д. *

Каждый из них будет иметь данные с таблицами, такими как:

Пациент

Образец (образцы крови)

Местоположение

Диагноз

Пол

Провайдер

Мы не отслеживаем, сколько денег было потрачено, мы просто отслеживаем + ve и -ve семплов.

Теперь вопрос перед высшим руководствомчто мы должны построить Datawarehouse из элеваторов хранения данных.

Но бизнес-пользователи никогда не задавали вопрос, где им понадобятся данные из двух разных баз данных.Нужен ли нам DW, если пользователи даже не думали об этом?

Мне пришло в голову еще несколько вопросов:

  1. Какая степень детализации для каждого из этих информационных массивов?
  2. Какое измерение может действовать как согласованное измерение?
  3. Как будет протекать ETL?
  4. Добиться единой версии истины для всех мастеров?

Я просто делаю инициативу, чтобы понять, как можно решить ситуацию, в которой мы находимся. Любая помощь приветствуется..

Спасибо

Ответы [ 2 ]

0 голосов
/ 25 апреля 2019

Основная причина, по которой все ваши датамаркеты хранятся в одном и том же месте, хранилище данных, заключается в возможности отслеживать одни и те же измерения в разных датамаркетах.

В вашем примере я вижу по крайней мере пациента, поставщикаа также измерения заболеваний / диагнозов, которые могут предоставляться различными наборами данных и содержать единую версию каждого элемента.

Необходимо обновить ваши процедуры интеграции данных, чтобы обеспечить правильное обновление для всех измерений.Кроме того, вам необходимо настроить хранилище данных (которое, если ваши данные небольшие, одного сервера postgres узла должно быть более чем достаточно).Если эти затраты приемлемы, учитывая удобство наличия согласованных данных по всем витринам данных и возможности перекрестного запроса, тогда сделайте это.

Но, как вы говорите, вы нигде не видите бизнес-обоснования.Итак, вы не пытаетесь починить то, что не сломано?Возможно, оставьте все как есть, пока не возникнет такая необходимость, а затем оцените соотношение затрат и выгод такого шага.

0 голосов
/ 24 апреля 2019

Одна из причин, по которой я могу придумать создание хранилища данных, заключается в том, что вы хотите «архивировать» старые данные, которые больше не требуются на регулярной основе в витринах данных.

Другая причина, которая уже упоминалась в комментариях, заключается в том, что будет необходимость в общеорганизационной отчетности (возможно, в случае аудита внешней стороной). Вы не упоминаете, насколько велика ваша Enterprise, но у меня складывается впечатление, что она невелика, и поэтому, вероятно, это не будет тем, что я бы назвал движущим фактором в вашем решении.

...