Мы работаем над хранилищем данных для банка и в значительной степени следуем стандартной модели промежуточных таблиц Kimball, схеме «звезда» и ETL для протягивания данных в процессе.
Кимбалл говорит об использовании промежуточной области для импорта, очистки, обработки и всего, пока вы не будете готовы поместить данные в звездообразную схему. На практике это обычно означает загрузку данных из источников в набор таблиц с небольшими изменениями или без изменений, с последующим необязательным переносом данных через промежуточные таблицы до тех пор, пока они не будут готовы к переходу в схему типа «звезда». Это большая работа для одного лица, никакой ответственности здесь нет.
В предыдущих системах, над которыми я работал, проводилось различие между различными наборами таблиц, в том числе:
- Загрузить таблицы : необработанные исходные данные системы, без изменений
- Промежуточные таблицы : промежуточная обработка, набор и очистка
- Складские столы
Вы можете прикрепить их в отдельных схемах, а затем применить разные политики для архивирования / резервного копирования / безопасности и т. Д. Один из других сотрудников работал на складе, где есть StagingInput и StagingOutput , похожая история. Команда в целом имеет большой опыт, как хранилище данных, так и прочее.
Однако, несмотря на все это, просматривая Кимбалл и Интернет, кажется, абсолютно ничего не написано о предоставлении какой-либо структуры для промежуточной базы данных. Можно было бы простить, если бы мы поверили, что мистер Кимбалл заставит нас всех работать над постановкой этого большого глубокого темного неструктурированного пула данных.
Хотя, конечно, довольно очевидно, как это сделать, если мы хотим добавить больше структуры в область подготовки, но кажется очень странным, что об этом ничего не написано.
Итак, что все остальные там делают? Является ли постановка всего этого большого неструктурированного беспорядка, или у людей есть интересные проекты на этом?