Хранилище данных и озеро данных являются независимыми системами, которые служат различным целям, могут / должны быть взаимодополняющими, и оба являются частью более крупной архитектуры данных.Озеро данных, как концепция , может быть просто еще одним источником данных для многомерных моделей в хранилище данных (хотя технологическая реализация озер данных позволяет осуществлять прямой запрос необработанных данных).
Озеро данных можно представить как «зону посадки», где несколько систем выгружают данные в «сложном / необработанном формате», например, файлы MP3 из звонков в службу поддержки клиентов, сжатые журналы с веб-серверов.Он предназначен для использования в исторических целях и для дальнейшей обработки в формате, который можно легко проанализировать / отчитать, например, извлечение текста из файлов MP3.
Хранилище данных также объединяет данные из разных систем, но данныесмоделирован в формате, подходящем для отчетности (например, в многомерной модели), его модель отражает процессы и транзакции бизнеса / домена и, как правило, высоко курируется.
Представьте себе случай: если вы регистрируете посещения своего интернет-магазинаиспользуя журналы веб-сервера, вы можете хранить gzipped журналы («данные транзакций») в озере данных, а затем обрабатывать данные в многомерной модели (например, this ), которая будет «копией данных транзакций».специально структурирован для запросов и анализа ", поэтому бизнес-пользователи могут легко изучить его в Excel или другом инструменте отчетности.