Являются ли Data Lake и Big Data одинаковыми? - PullRequest
0 голосов
/ 18 сентября 2018

Я пытаюсь понять все, существует ли реальная разница между озером данных и большими данными, если вы проверите, что оба понятия похожи на большой репозиторий, который сохраняет информацию до тех пор, пока она не станет необходимой, поэтому, когда мы можем сказать, что мыиспользуя большие данные или озеро данных?

Заранее спасибо

Ответы [ 2 ]

0 голосов
/ 18 сентября 2018

Большие данные - это просто термин для инкапсуляции огромных объемов данных, которые сейчас генерируются.Это не относится ни к какому конкретному или какому-либо определенному количеству данных.

Озеро данных для меня = Схема при чтении.Данные, которые неструктурированы и выгружаются в хранилище объектов или аналогичные без связанной схемы.

0 голосов
/ 18 сентября 2018

Не могу сказать, что раньше сталкивался с термином «большое хранилище», но, чтобы ответить на первоначальный вопрос, нет, озеро данных и большие данные не одно и то же, хотя, честно говоря, они оба разбросаны по множествуи определения меняются в зависимости от того, кого вы спрашиваете, но я постараюсь дать ему шанс:


Большие данные

Используется для описания как экосистемы вокруг, так и некоторыхВ той степени, в какой это касается отрасли, данные, которые в некотором роде слишком большие или слишком сложные, чтобы их можно было удобно хранить и / или обрабатывать традиционными способами.

Иногда это может зависеть от объема данных: как только вы получитев сотни терабайт или петабайт ваши старые добрые базы данных RDBMS имеют тенденцию бросать в грязь, и мы вынуждены распространять наши данные на множество дисков, а не только на один большой.И на этих томах мы захотим распараллелить наши рабочие нагрузки, что приведет к таким вещам, как базы данных MPP, экосистема Hadoop и обработка на основе DAG.

Однако один только том не рассказывает всей истории.Популярное определение Больших Данных описывается так называемыми «4 V»: Объем, Разнообразие, Скорость и Скорость .В двух словах:

  • Объем - как упоминалось выше, относится к трудностям, вызванным размером данных

  • Разнообразие - относится к внутренней сложности работы с разнородными типами данных;некоторые из ваших данных будут структурированы (например, таблицы данных SQL), в то время как другие данные могут быть либо полуструктурированными (документы XML), либо неструктурированными (файлы необработанных изображений), и технология для работы с этим разнообразием нетривиальна

  • Скорость - относится к скорости, с которой могут быть получены новые данные;при сборе событий в реальном времени, таких как данные IoT, веб-трафик, финансовые транзакции, изменения базы данных или что-либо еще, происходящее в режиме реального времени, «скорость» данных, поступающих (и во многих случаях из) в ваши системы,может легко превзойти возможности традиционных технологий баз данных, что требует некоторой масштабируемой шины сообщений (Kafka) и, возможно, инфраструктуры обработки сложных событий (такой как Spark Streaming или Apache Flink)

  • Veracity - окончательная буква «V» относится к дополнительной сложности работы с данными, которые часто поступают из источников, находящихся вне вашего контроля, и которые могут содержать данные, которые являются недействительными, ошибочными, вредоносными, искаженными или всемивыше.Это добавляет необходимость в проверке данных, проверке качества данных, нормализации данных и т. Д.

В этом определении «большие данные» - это данные, которые из-за особых проблем, связанных с4 V, не подходит для обработки с использованием традиционных технологий баз данных;в то время как «инструменты больших данных» - это инструменты, специально разработанные для решения этих проблем.


Data Lake

В отличие от Data Lake, как правило, используется как термин для описания определенноготип хранилища файлов или блобов, позволяющий хранить практически неограниченные объемы структурированных и неструктурированных данных, необходимые для архитектуры больших данных.

Некоторые компании используют термин «озеро данных», чтобы обозначать не просто уровень хранения, но также и все связанные инструменты, от приема, ETL, споров, машинного обучения, аналитики, вплоть до стеков хранилища данных и, возможно, даже BI и инструментов визуализации.Однако, как архитектор больших данных, я нахожу, что использование этого термина вводит в заблуждение, и предпочитаю говорить об озере данных и инструментах вокруг него как об отдельных компонентах с отдельными возможностями и обязанностями.Таким образом, ответственность Data Lake заключается в том, чтобы быть центральным хранилищем высокой надежности для любого типа данных, которые вы, возможно, захотите хранить в состоянии покоя.

Для большинства учетных записей термин «озеро данных» былпридуманный Джеймсом Диксоном, основателем и техническим директором Pentaho, который описывает это так:

«Если вы считаете, что datamart - это хранилище бутилированной воды - очищенной, упакованной и структурированной для удобства потребления - озеро данных представляет собой большой массив воды в более естественном состоянии.Содержимое потока озера данных поступает из источника для заполнения озера, и различные пользователи озера могут приходить, чтобы исследовать, погружаться или брать образцы ».

Веб-службы Amazon определяют его наих страница 'Что такое озеро данных' :

Озеро данных - это централизованное хранилище, которое позволяет хранить все ваши структурированные и неструктурированные данные в любом масштабе.Вы можете хранить свои данные как есть, без необходимости сначала структурировать данные и запускать различные типы аналитики - от информационных панелей и визуализаций до обработки больших данных, аналитики в реальном времени и машинного обучения для принятия правильных решений.

Из Википедии :

Озеро данных - это система или хранилище данных, хранящихся в своем естественном формате, обычно объектные объекты или файлы.Озеро данных обычно представляет собой единое хранилище всех корпоративных данных, включая необработанные копии данных исходной системы и преобразованные данные, используемые для таких задач, как отчетность, визуализация, аналитика и машинное обучение.

И, наконец, Gartner :

Озеро данных - это набор экземпляров хранилища различных активов данных, дополнительных к исходным источникам данных.Эти активы хранятся в почти точной или даже точной копии исходного формата.Цель озера данных состоит в том, чтобы представить неопределяемое представление данных только самым высококвалифицированным аналитикам, чтобы помочь им изучить свои методы уточнения и анализа данных независимо от каких-либо компромиссов системы записи, которые могут существовать в традиционной аналитике.хранилище данных (например, витрина данных или хранилище данных).

В локальных кластерах озеро данных обычно относится к основному хранилищу в кластере в распределенной файловой системе, обычно HDFS,хотя существуют и другие файловые системы, такие как GFS, используемая в Google, или файловая система MapR в кластерах MapR.

В облаке озера данных обычно не хранятся в кластерах, поскольку хранить кластер просто не выгодноработает постоянно, а скорее в надежном облачном хранилище, таком как Amazon S3, Azure ADLS или Google Cloud Storage.Затем вычислительные кластеры можно запускать по требованию и беспрепятственно подключать к облачному хранилищу для выполнения преобразований, машинного обучения, аналитических заданий и т. Д.


Надеюсь, что это было полезно, и я желаю вам всего наилучшего,

...