Что такое хранилище данных и может ли оно применяться к сложным данным? - PullRequest
0 голосов
/ 05 декабря 2018

Я хочу определить хранилище данных с необходимой ссылкой на литературу.

В википедии я обнаружил, что wiki

DW - это центральные хранилища интегрированных данных изодин или несколько разрозненных источников.Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для сотрудников по всему предприятию.

означает ли это, что это всегда реляционная база данных под хранилищем данных или можетбыть какой-нибудь репозиторий?

В Архитектурная среда для сложных хранилищ данных термин хранилище данных также используется для сложных данных, что означает видео, изображения и т. Д., Но термин хранилище данных в этой статье остается неопределенным.

1 Ответ

0 голосов
/ 07 декабря 2018

«Хранилище данных» - это в основном концепция информационных систем, которая описывает централизованный и надежный источник данных (например, компании / бизнеса).

Из Википедии: «DW являются центральными хранилищами интегрированных данных из одного илиболее разрозненные источники. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию. "

Я считаю Kimball Group одним из самых авторитетных источников по этой теме, так какони разрабатывали свои рамки и методологии на протяжении более двух десятилетий, а также применяли эти рамки в различных сферах бизнеса и техники и обменивались результатами и результатами этого.

Кимбалл Хранилище данныхИнструментарий является одним из справочников по данной теме и определяет хранилище данных как «копию данных транзакций, специально структурированных для запросов и анализа».

Билл Инмон также считается одним из ПиоКомпоненты хранилищ данных и определяют хранилище данных как «предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных для поддержки процесса принятия управленческих решений»

Хранилище данных не должнобыть реализованным в системе реляционных баз данных, хотя очень часто можно внедрять размерные модели Кимбалла в RDBMS или в другие системы баз данных, поддерживающие концепции «соединяемых» таблиц (например, Redshift, Presto, Hive).

НедавнийВ дополнение к архитектуре данных, которая идеально подходит для сложных типов данных, существует концепция озера данных , которое обычно представляет собой хранилище данных, которое может обрабатывать практически любые типы данных (например, S3, HDFS), которые могутанализироваться напрямую (например, MapReduce поверх XML-файлов на S3) или обрабатываться в различных форматах или моделях данных (например, в размерной модели).

Редактировать после вашего комментария:

Хранилище данных и озеро данных являются независимыми системами, которые обслуживают разныеЦели могут быть / должны быть взаимодополняющими, и оба являются частью большой архитектуры данных.Озеро данных, как концепция , может быть просто еще одним источником данных для многомерных моделей в хранилище данных (хотя технологическая реализация озер данных позволяет осуществлять прямой запрос необработанных данных).

Вы можете думать о озере данных как о «зоне посадки», где несколько систем сбрасывают данные в «сложном / необработанном формате», например, файлы MP3 из звонков в службу поддержки клиентов, сжатые журналы с веб-серверов.Он предназначен для использования в исторических целях и для дальнейшей обработки в формате, который можно легко проанализировать / отчитать, например, извлечение текста из файлов MP3.

Хранилище данных также объединяет данные из разных систем, но данныесмоделирован в формате, подходящем для отчетности (например, в многомерной модели), его модель отражает процессы и транзакции бизнеса / домена и, как правило, высоко курируется.

Представьте себе случай: если вы регистрируете посещения своего интернет-магазинаиспользуя журналы веб-сервера, вы можете хранить gzipped журналы («данные транзакций») в озере данных и затем обрабатывать данные в многомерной модели (например, this ), которая будет «копией данных транзакций».специально структурирован для запросов и анализа ", поэтому бизнес-пользователи могут легко изучить его в Excel или другом инструменте отчетности.

...