У меня есть четкое представление о том, как работает oop, так как я изучал локальную модель, так как это то, как все учатся. В этом смысле идея верхнего уровня довольно проста. У нас есть набор машин (узлов), и мы запускаем определенные процессы на каждом из них, а затем настраиваем эти процессы таким образом, что все это начинает вести себя как единый логический объект что мы называем Had oop (YARN) кластер. Здесь HDFS представляет собой логический уровень поверх отдельного хранилища всех машин в кластере. Но когда мы начинаем думать о том же кластере в облаке, это немного сбивает с толку. В случае кластера HDInsight Had oop предположим, что у меня уже есть учетная запись Azure Storage с большим количеством текстовых данных, и я хочу провести некоторый анализ, чтобы я впереди go и развернул кластер Had oop в тот же регион, что и учетная запись хранения. Теперь вся идея, лежащая в основе Had oop, заключается в обработке, наиболее близкой к тому, где существуют данные. В этом случае, когда мы создаем кластер Had oop, группа виртуальных машин Azure запускается за сценой со своим собственным базовым хранилищем (хотя и в том же регионе). Но затем, при создании кластера, мы указываем учетную запись хранения по умолчанию и несколько других учетных записей хранения, которые необходимо присоединить, где находятся данные, которые должны быть обработаны. Поэтому в идеале данные, которые должны обрабатываться, должны существовать на дисках для виртуальных машин. Как эта штука работает в Azure? Я предполагаю, что виртуальные машины создают диски, которые на самом деле являются указателями на azure учетные записи хранения (по умолчанию + подключено)? Эта часть - то, что не очень хорошо объяснено и действительно облачно. Поэтому многие люди, в том числе и я, всегда находятся в неведении, когда они изучают классическую c локальную модель oop академически и начинают использовать облачные кластеры в реальном мире. Если бы мы могли видеть больше информации об этих виртуальных машинах прямо со страницы обзора кластера на портале Azure, это помогло бы понять. Я знаю, что это видно из Ambari, но опять же Ambari слеп к Azure, это независимый компонент, поэтому он не очень полезен.