Azure Data lake VS Azure HDInsight - PullRequest
       30

Azure Data lake VS Azure HDInsight

0 голосов
/ 04 июня 2018

Я просматривал документы Microsoft:

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

Я новичок в Azure Data lake и HDInsight.В URL есть утверждение, которое говорит, что

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."

Согласно моему первоначальному пониманию, хранилище озера данных - это хранилище, в котором могут храниться любые данные.Я думаю, что HDInsight также делает то же самое.

Мой вопрос: в чем разница между озером данных Azure и Azure HDInsight?Если HDInsight можно использовать для хранения файлов или любого другого хранилища, то зачем использовать Data Lake? Было бы замечательно, если бы кто-то мог прояснить это подробнее.Спасибо.

Ответы [ 5 ]

0 голосов
/ 20 ноября 2018

Azure Data Lake Analytics обеспечивает меньше вычислений на сервере при использовании хранилища озера данных Azure для хранения данных, тогда как в HDInsight нам необходимо указать и спроектировать узлы Compute Virtual Machine в соответствии с требованиями к обработке.Разработчикам может быть выгодно работать с менее вычислительными ресурсами сервера в Azure Data Lake Analytics, поскольку потребности масштабирования задания аналитики выполняются «из коробки».

0 голосов
/ 01 ноября 2018

В двух словах,

Hdinsight - это управляемая служба hadoop, предоставляющая поддержку вычислений

ADL - управляемая служба хранения, обеспечивающая поддержку большого объема хранилища. (в качестве альтернативы вы можете выбрать использование BLOB-объектов, но BLOB-объектов имеют некоторые ограничения (например, потоковая передача файлов в хранилище через кластер hdinsight не поддерживается)

если вам нужна дополнительная информация, прочитайте ниже:

Azure использует «разложенный аппаратный метод»

Вы можете связать или принять HDinsight в качестве кластера Hadoop, озеро данных Azure (ADL) в качестве HDFS. Но они отсоединены.

Доступ к HdinsightADL, использующий adl: //, и hdinsight никогда не сохраняют файловые блоки в узлах (как это делает Hadoop), скорее, он имеет сопоставления со службой хранения.

Если вы завершаете работу кластера, хранилище ADL остаетсяс файлами, хранящимися в нем. Вы можете получить доступ к хранилищу напрямую, используя другой сервис или инструмент (например, блоки данных Azure), или вы можете создать один другой кластер hdinsight oп верхней части данных.

0 голосов
/ 11 июня 2018

Самый простой способ представить себе озеро данных - подумать об этом большом контейнере, похожем на настоящее озеро с реками, впадающими в реку. Вы никогда не знаете, откуда берутся реки (или какого типа)"реки).Azure Data Lake была введена для упрощения хранения больших данных разработчиками, учеными и аналитиками данных любого размера. Он устраняет сложности, связанные с приемом и хранением всех ваших данных, и ускоряет запуск и работу с большими данными .Data Lake может хранить массу различных типов данных (структурированные данные, неструктурированные данные, файлы журналов, в режиме реального времени, изображения и т. Д.) И объединять их вместе, чтобы сопоставить множество различных типов данных.Ключевым моментом здесь является то, что мы переходим от традиционного способа к современным инструментам (таким как Hadoop, Cassandra, NoSQL DB и т. Д.).Azure Data Lake включает в себя три службы:

  • Azure Data Lake Store, неограниченное озеро данных, обеспечивающее аналитику больших данных
  • Azure Data Lake Analytics, массово параллельная служба заданий по требованию
  • Azure HDInsight , полностью управляемое облачное предложение Hadoop и Spark

enter image description here

Azure Data LakeХранилище похоже на облачную файловую службу или файловую систему, размер которой практически не ограничен.Мы можем запустить службы поверх данных, которые находятся в этом магазине.Таким образом, вы можете использовать Hadoop или Spark в кластере HDInsight или использовать аналитическую службу Azure Data Lake, которая является дополнением к хранилищу Azure Data Lake Store.И эта служба позволит вам выполнять задания, которые эффективно запрашивают данные, сохраненные в хранилище озера данных Azure, и генерируют выходные результаты.

0 голосов
/ 07 июля 2018

HDInsight - это аналитическая служба, тогда как хранилище озера данных Azure - это служба хранения.Скорее всего, вам нужно иметь кластер функциональной аналитики.

HDInsight предоставляет кластер, полностью управляет пакетами с открытым исходным кодом для аналитики (Hadoop, Spark ... и т. Д.), И вы настраиваете свой кластер на использование Azure.Хранилище озера данных, поддерживающее HDFS API (Hadoop FileSystem) поверх облачного хранилища.

Хранилище озера данных Gen2 - это то, что вы должны начать рассматривать, объединяя преимущества обоих Azure.Хранение и ADLS в одном сервисе.- https://microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete

Документация ADLS Gen 2 - https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction

0 голосов
/ 04 июня 2018

Azure Data Lake Store, это просто хранилище данных.HDInsight также может делать это в кластере, который вы раскручиваете.Однако, когда вы останавливаете этот кластер, данные также исчезают.

Обычно клиенты используют хранилище озера данных Azure или хранилище Azure для предоставления постоянного хранилища отдельно от кластера (вычисления), используемого для обработки данных.

Гай

...