«Хранилище данных» - это в основном концепция информационных систем, которая описывает централизованный и надежный источник данных (например, компании / бизнеса).
Из Википедии: «DW являются центральными хранилищами интегрированных данных из одного илиболее разрозненные источники. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию. "
Я считаю Kimball Group одним из самых авторитетных источников по этой теме, так какони разрабатывали свои рамки и методологии на протяжении более двух десятилетий, а также применяли эти рамки в различных сферах бизнеса и техники и обменивались результатами и результатами этого.
Кимбалл Хранилище данныхИнструментарий является одним из справочников по данной теме и определяет хранилище данных как «копию данных транзакций, специально структурированных для запросов и анализа».
Билл Инмон также считается одним из ПиоКомпоненты хранилищ данных и определяют хранилище данных как «предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных для поддержки процесса принятия управленческих решений»
Хранилище данных не должнобыть реализованным в системе реляционных баз данных, хотя очень часто можно внедрять размерные модели Кимбалла в RDBMS или в другие системы баз данных, поддерживающие концепции «соединяемых» таблиц (например, Redshift, Presto, Hive).
НедавнийВ дополнение к архитектуре данных, которая идеально подходит для сложных типов данных, существует концепция озера данных , которое обычно представляет собой хранилище данных, которое может обрабатывать практически любые типы данных (например, S3, HDFS), которые могутанализироваться напрямую (например, MapReduce поверх XML-файлов на S3) или обрабатываться в различных форматах или моделях данных (например, в размерной модели).
Редактировать после вашего комментария:
Хранилище данных и озеро данных являются независимыми системами, которые обслуживают разныеЦели могут быть / должны быть взаимодополняющими, и оба являются частью большой архитектуры данных.Озеро данных, как концепция , может быть просто еще одним источником данных для многомерных моделей в хранилище данных (хотя технологическая реализация озер данных позволяет осуществлять прямой запрос необработанных данных).
Вы можете думать о озере данных как о «зоне посадки», где несколько систем сбрасывают данные в «сложном / необработанном формате», например, файлы MP3 из звонков в службу поддержки клиентов, сжатые журналы с веб-серверов.Он предназначен для использования в исторических целях и для дальнейшей обработки в формате, который можно легко проанализировать / отчитать, например, извлечение текста из файлов MP3.
Хранилище данных также объединяет данные из разных систем, но данныесмоделирован в формате, подходящем для отчетности (например, в многомерной модели), его модель отражает процессы и транзакции бизнеса / домена и, как правило, высоко курируется.
Представьте себе случай: если вы регистрируете посещения своего интернет-магазинаиспользуя журналы веб-сервера, вы можете хранить gzipped журналы («данные транзакций») в озере данных и затем обрабатывать данные в многомерной модели (например, this ), которая будет «копией данных транзакций».специально структурирован для запросов и анализа ", поэтому бизнес-пользователи могут легко изучить его в Excel или другом инструменте отчетности.