HDInsight и Hive запросы - PullRequest
       38

HDInsight и Hive запросы

0 голосов
/ 30 апреля 2018

Мы делаем POC для HDInsight. Я очень новичок в этой технологии. Мы пытаемся отправить некоторые данные в Azure и написать несколько запросов Hive. Мы можем выполнить первую часть: мы можем отправить некоторые тестовые данные с помощью AzCopy в BLOB-объект Azure. (Я понимаю, что есть таблицы Azure и очереди Azure). Но для POC, Azure blob просто отлично.

Мы можем использовать Visual Studio для общения с этим BLOB-объектом. Однако мы также хотим проверить HDinsight и его функциональность MapReduce.

На этом фоне есть пара вопросов:

 1. Do I need to copy data from Azure Blob to Anywhere else for writing
    Hive queries in Ambari? Or Can Ambari directly talk to data stored
    in Azure blob? 
 2. Is this the right way to process data? (Keep data in
        Azure blob, and use HDInsight/Ambari to process the data)
 3. If point 2 is correct, that means HDInsight is used only for
    parallel processing with MapReducing feature. Is this correct?

Большое спасибо за понимание.

1 Ответ

0 голосов
/ 02 мая 2018
  1. Да, HDInsight может читать данные, хранящиеся в хранилище BLOB. Примеры:

https://docs.microsoft.com/en-us/azure/hdinsight/hadoop/apache-hadoop-linux-tutorial-get-started https://blogs.msdn.microsoft.com/azuredatalake/2017/04/06/azure-hdinsight-3-6-five-things-that-will-make-data-developer-happy/

  1. Да, в зависимости от того, что вы хотите сделать, вы можете использовать Spark, MR, Pig или Hive для обработки данных Хорошая отправная точка здесь https://www.edx.org/course/processing-big-data-with-hadoop-in-azure-hdinsight

3: Да, данные обрабатываются с использованием одной из распределенных сред, таких как Spark, Map Reduce, Hive или Pig

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...