Как Data Lake хранит данные и в каком формате? - PullRequest
0 голосов
/ 09 сентября 2018

Я слышал, что Data Lakes может хранить любые данные: Relational, NoSql, изображения / изображения, Adobe Pdf, Excel. Как хранятся данные в формате без SQL или в двоичном дереве? Или это просто сохранить как обычный жесткий диск? Если так, то почему они просто не называют это хранилищем, а не озером данных? Я пытаюсь найти точный механизм хранения для «озера данных»

1 Ответ

0 голосов
/ 09 сентября 2018

Озеро данных - это система или хранилище данных, хранящихся в естественном формате, [1] обычно объектные объекты или файлы. Озеро данных обычно представляет собой единое хранилище всех данных предприятия, включая необработанные копии данных исходной системы и преобразованные данные, используемые для таких задач, как отчетность, визуализация, аналитика и машинное обучение. Озеро данных может включать структурированные данные из реляционных баз данных (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON), неструктурированные данные (электронные письма, документы, PDF) и двоичные данные (изображения, аудио, видео).

Примеры. Одним из примеров технологии, используемой для размещения озера данных, является распределенная файловая система, используемая в Apache Hadoop.

Многие компании также используют облачные сервисы хранения, такие как Azure Data Lake и Amazon S3. [9] Существует постепенный академический интерес к концепции озер данных, например, Personal DataLake [10] в Университете Кардиффа, для создания озера данных нового типа, которое нацелено на управление большими данными отдельных пользователей путем предоставления единой точки сбора, организации и обмена личными данными. [11]

Более раннее озеро данных (Hadoop 1.0) имело ограниченные возможности с его пакетно-ориентированной обработкой (MapReduce) и было единственной парадигмой обработки, связанной с ним. Взаимодействие с озером данных означало, что вам необходимо иметь опыт работы с Java с инструментами сокращения карт и более высокого уровня, такими как Apache Pig и Apache Hive (которые сами по себе ориентированы на пакетную обработку). С появлением Hadoop 2.0 и разделением обязанностей с управлением ресурсами, которое перешло к YARN (еще один посредник по переговорам о ресурсах), через Hadoop и озеро данных стали доступны новые парадигмы обработки, такие как потоковая, интерактивная, интерактивная.

...