Может ли хранилище данных включать озеро данных? - PullRequest
0 голосов
/ 11 декабря 2018

Я хочу разобраться в хранилище данных и озере данных более подробно.

Мне кажется, в теме есть другая информация.Inmon определяет хранилище данных как

предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных в поддержку процесса принятия решений руководством

Теперь японимаю, что это всего лишь форма архитектуры и не подразумевает никаких технологий.Это означает, что базовые данные могут быть любой структурой, которая также может быть хранилищем объектов S3.Более того Waas et al.в архитектуре ELT по требованию для BI с нужным временем: расширение Vision предложило хранилище данных с процессом интеграции данных ELT.

Когда дело доходит до озер данных, я нашел следующее определение

хранилище масштабируемого хранилища, которое хранит огромное количество необработанных данных в своем собственном формате («как есть») до тех пор, пока оно не станетнеобходимы системы обработки (механизм), которые могут принимать данные без ущерба для структуры данных

взято из Управление озером данных .

Теперь хранилище данных может быть более строгим озером данных?Был аргумент, что хранилище данных должно использовать ETL, но, по мнению Инмона, определение не включает каких-либо ограничений на преобразование данных?Если интеграция данных может быть ELT и преобразование является гибким, например, оно может быть легко расширено.Хранилище данных очень похоже на озеро данных.

мои предположения верны или я смотрю на это с искаженным углом.

1 Ответ

0 голосов
/ 12 декабря 2018

Хранилище данных и озеро данных являются независимыми системами, которые служат различным целям, могут / должны быть взаимодополняющими, и оба являются частью более крупной архитектуры данных.Озеро данных, как концепция , может быть просто еще одним источником данных для многомерных моделей в хранилище данных (хотя технологическая реализация озер данных позволяет осуществлять прямой запрос необработанных данных).

Озеро данных можно представить как «зону посадки», где несколько систем выгружают данные в «сложном / необработанном формате», например, файлы MP3 из звонков в службу поддержки клиентов, сжатые журналы с веб-серверов.Он предназначен для использования в исторических целях и для дальнейшей обработки в формате, который можно легко проанализировать / отчитать, например, извлечение текста из файлов MP3.

Хранилище данных также объединяет данные из разных систем, но данныесмоделирован в формате, подходящем для отчетности (например, в многомерной модели), его модель отражает процессы и транзакции бизнеса / домена и, как правило, высоко курируется.

Представьте себе случай: если вы регистрируете посещения своего интернет-магазинаиспользуя журналы веб-сервера, вы можете хранить gzipped журналы («данные транзакций») в озере данных, а затем обрабатывать данные в многомерной модели (например, this ), которая будет «копией данных транзакций».специально структурирован для запросов и анализа ", поэтому бизнес-пользователи могут легко изучить его в Excel или другом инструменте отчетности.

...