Как кластер HDInsight сопоставляется с Azure Storage как HDFS? - PullRequest
0 голосов
/ 01 мая 2020

У меня есть четкое представление о том, как работает oop, так как я изучал локальную модель, так как это то, как все учатся. В этом смысле идея верхнего уровня довольно проста. У нас есть набор машин (узлов), и мы запускаем определенные процессы на каждом из них, а затем настраиваем эти процессы таким образом, что все это начинает вести себя как единый логический объект что мы называем Had oop (YARN) кластер. Здесь HDFS представляет собой логический уровень поверх отдельного хранилища всех машин в кластере. Но когда мы начинаем думать о том же кластере в облаке, это немного сбивает с толку. В случае кластера HDInsight Had oop предположим, что у меня уже есть учетная запись Azure Storage с большим количеством текстовых данных, и я хочу провести некоторый анализ, чтобы я впереди go и развернул кластер Had oop в тот же регион, что и учетная запись хранения. Теперь вся идея, лежащая в основе Had oop, заключается в обработке, наиболее близкой к тому, где существуют данные. В этом случае, когда мы создаем кластер Had oop, группа виртуальных машин Azure запускается за сценой со своим собственным базовым хранилищем (хотя и в том же регионе). Но затем, при создании кластера, мы указываем учетную запись хранения по умолчанию и несколько других учетных записей хранения, которые необходимо присоединить, где находятся данные, которые должны быть обработаны. Поэтому в идеале данные, которые должны обрабатываться, должны существовать на дисках для виртуальных машин. Как эта штука работает в Azure? Я предполагаю, что виртуальные машины создают диски, которые на самом деле являются указателями на azure учетные записи хранения (по умолчанию + подключено)? Эта часть - то, что не очень хорошо объяснено и действительно облачно. Поэтому многие люди, в том числе и я, всегда находятся в неведении, когда они изучают классическую c локальную модель oop академически и начинают использовать облачные кластеры в реальном мире. Если бы мы могли видеть больше информации об этих виртуальных машинах прямо со страницы обзора кластера на портале Azure, это помогло бы понять. Я знаю, что это видно из Ambari, но опять же Ambari слеп к Azure, это независимый компонент, поэтому он не очень полезен.

1 Ответ

0 голосов
/ 06 мая 2020

Существует базовый драйвер, который служит мостом при сопоставлении Azure Хранилища как HDFS с другими службами, работающими в HDInsight.

Подробнее о функциях этого драйвера можно прочитать на официальной странице ниже.

https://hadoop.apache.org/docs/current/hadoop-azure/index.html

Если ваша Azure учетная запись хранения относится к типу ADLS Gen 2 (Azure Data Lake Storage Gen2), то используемый драйвер отличается и может найти на следующей официальной странице. Это обеспечивает некоторые расширенные возможности ADLS Gen2 для повышения производительности HDInsight.

https://hadoop.apache.org/docs/current/hadoop-azure/abfs.html

Наконец, то же самое, что и у вашей предварительной установки oop. HDInsight также имеет локальную HDFS, которая развернута на жестких дисках VM кластера HDInsight. Вы можете получить доступ к этой локальной HDFS с помощью URI, как показано ниже.

hdfs://mycluster/

Например, вы можете выполнить следующее для просмотра локального содержимого HDFS root уровня.

hdfs dfs -ls hdfs://mycluster/
...