Озеро данных - это система или хранилище данных, хранящихся в естественном формате, [1] обычно объектные объекты или файлы. Озеро данных обычно представляет собой единое хранилище всех данных предприятия, включая необработанные копии данных исходной системы и преобразованные данные, используемые для таких задач, как отчетность, визуализация, аналитика и машинное обучение. Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON), неструктурированные данные (электронные письма, документы, PDF) и двоичные данные (изображения, аудио, видео).
Примеры. Одним из примеров технологии, используемой для размещения озера данных, является распределенная файловая система, используемая в Apache Hadoop.
Многие компании также используют облачные сервисы хранения, такие как Azure Data Lake и Amazon S3. [9] Существует постепенный академический интерес к концепции озер данных, например, Personal DataLake [10] в Университете Кардиффа, для создания озера данных нового типа, которое нацелено на управление большими данными отдельных пользователей путем предоставления единой точки сбора, организации и обмена личными данными. [11]
Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности с его пакетно-ориентированной обработкой (MapReduce) и было единственной парадигмой обработки, связанной с ним. Взаимодействие с озером данных означало, что вам необходимо иметь опыт работы с Java с инструментами сокращения карт и более высокого уровня, такими как Apache Pig и Apache Hive (которые сами по себе ориентированы на пакетную обработку). С появлением Hadoop 2.0 и разделением обязанностей с управлением ресурсами, которое перешло к YARN (еще один посредник по переговорам о ресурсах), через Hadoop и озеро данных стали доступны новые парадигмы обработки, такие как потоковая, интерактивная, интерактивная.