Не могу сказать, что раньше сталкивался с термином «большое хранилище», но, чтобы ответить на первоначальный вопрос, нет, озеро данных и большие данные не одно и то же, хотя, честно говоря, они оба разбросаны по множествуи определения меняются в зависимости от того, кого вы спрашиваете, но я постараюсь дать ему шанс:
Большие данные
Используется для описания как экосистемы вокруг, так и некоторыхВ той степени, в какой это касается отрасли, данные, которые в некотором роде слишком большие или слишком сложные, чтобы их можно было удобно хранить и / или обрабатывать традиционными способами.
Иногда это может зависеть от объема данных: как только вы получитев сотни терабайт или петабайт ваши старые добрые базы данных RDBMS имеют тенденцию бросать в грязь, и мы вынуждены распространять наши данные на множество дисков, а не только на один большой.И на этих томах мы захотим распараллелить наши рабочие нагрузки, что приведет к таким вещам, как базы данных MPP, экосистема Hadoop и обработка на основе DAG.
Однако один только том не рассказывает всей истории.Популярное определение Больших Данных описывается так называемыми «4 V»: Объем, Разнообразие, Скорость и Скорость .В двух словах:
Объем - как упоминалось выше, относится к трудностям, вызванным размером данных
Разнообразие - относится к внутренней сложности работы с разнородными типами данных;некоторые из ваших данных будут структурированы (например, таблицы данных SQL), в то время как другие данные могут быть либо полуструктурированными (документы XML), либо неструктурированными (файлы необработанных изображений), и технология для работы с этим разнообразием нетривиальна
Скорость - относится к скорости, с которой могут быть получены новые данные;при сборе событий в реальном времени, таких как данные IoT, веб-трафик, финансовые транзакции, изменения базы данных или что-либо еще, происходящее в режиме реального времени, «скорость» данных, поступающих (и во многих случаях из) в ваши системы,может легко превзойти возможности традиционных технологий баз данных, что требует некоторой масштабируемой шины сообщений (Kafka) и, возможно, инфраструктуры обработки сложных событий (такой как Spark Streaming или Apache Flink)
Veracity - окончательная буква «V» относится к дополнительной сложности работы с данными, которые часто поступают из источников, находящихся вне вашего контроля, и которые могут содержать данные, которые являются недействительными, ошибочными, вредоносными, искаженными или всемивыше.Это добавляет необходимость в проверке данных, проверке качества данных, нормализации данных и т. Д.
В этом определении «большие данные» - это данные, которые из-за особых проблем, связанных с4 V, не подходит для обработки с использованием традиционных технологий баз данных;в то время как «инструменты больших данных» - это инструменты, специально разработанные для решения этих проблем.
Data Lake
В отличие от Data Lake, как правило, используется как термин для описания определенноготип хранилища файлов или блобов, позволяющий хранить практически неограниченные объемы структурированных и неструктурированных данных, необходимые для архитектуры больших данных.
Некоторые компании используют термин «озеро данных», чтобы обозначать не просто уровень хранения, но также и все связанные инструменты, от приема, ETL, споров, машинного обучения, аналитики, вплоть до стеков хранилища данных и, возможно, даже BI и инструментов визуализации.Однако, как архитектор больших данных, я нахожу, что использование этого термина вводит в заблуждение, и предпочитаю говорить об озере данных и инструментах вокруг него как об отдельных компонентах с отдельными возможностями и обязанностями.Таким образом, ответственность Data Lake заключается в том, чтобы быть центральным хранилищем высокой надежности для любого типа данных, которые вы, возможно, захотите хранить в состоянии покоя.
Для большинства учетных записей термин «озеро данных» былпридуманный Джеймсом Диксоном, основателем и техническим директором Pentaho, который описывает это так:
«Если вы считаете, что datamart - это хранилище бутилированной воды - очищенной, упакованной и структурированной для удобства потребления - озеро данных представляет собой большой массив воды в более естественном состоянии.Содержимое потока озера данных поступает из источника для заполнения озера, и различные пользователи озера могут приходить, чтобы исследовать, погружаться или брать образцы ».
Веб-службы Amazon определяют его наих страница 'Что такое озеро данных' :
Озеро данных - это централизованное хранилище, которое позволяет хранить все ваши структурированные и неструктурированные данные в любом масштабе.Вы можете хранить свои данные как есть, без необходимости сначала структурировать данные и запускать различные типы аналитики - от информационных панелей и визуализаций до обработки больших данных, аналитики в реальном времени и машинного обучения для принятия правильных решений.
Из Википедии :
Озеро данных - это система или хранилище данных, хранящихся в своем естественном формате, обычно объектные объекты или файлы.Озеро данных обычно представляет собой единое хранилище всех корпоративных данных, включая необработанные копии данных исходной системы и преобразованные данные, используемые для таких задач, как отчетность, визуализация, аналитика и машинное обучение.
И, наконец, Gartner :
Озеро данных - это набор экземпляров хранилища различных активов данных, дополнительных к исходным источникам данных.Эти активы хранятся в почти точной или даже точной копии исходного формата.Цель озера данных состоит в том, чтобы представить неопределяемое представление данных только самым высококвалифицированным аналитикам, чтобы помочь им изучить свои методы уточнения и анализа данных независимо от каких-либо компромиссов системы записи, которые могут существовать в традиционной аналитике.хранилище данных (например, витрина данных или хранилище данных).
В локальных кластерах озеро данных обычно относится к основному хранилищу в кластере в распределенной файловой системе, обычно HDFS,хотя существуют и другие файловые системы, такие как GFS, используемая в Google, или файловая система MapR в кластерах MapR.
В облаке озера данных обычно не хранятся в кластерах, поскольку хранить кластер просто не выгодноработает постоянно, а скорее в надежном облачном хранилище, таком как Amazon S3, Azure ADLS или Google Cloud Storage.Затем вычислительные кластеры можно запускать по требованию и беспрепятственно подключать к облачному хранилищу для выполнения преобразований, машинного обучения, аналитических заданий и т. Д.
Надеюсь, что это было полезно, и я желаю вам всего наилучшего,