Для новичков я бы порекомендовал придерживаться хорошей расфасованной дистрибутивной / песочницы Hadoop. Даже если вы хотите узнать, как настроить кластер Hadoop, прежде чем использовать инструменты, которые он предоставляет (например, Hive и т. Д.), Настройка общего распределения намного проще, по крайней мере, в начале.
Готовые песочницы для Hadoop будут в Linux. Но, скорее всего, вам не нужно много делать в Linux, чтобы начать использовать Hadoop, если вы начинаете с этих песочниц. Лично я думаю, что время, которое вы сэкономите, избегая проблем с поддержкой и документацией на портах Windows, значительно компенсирует любые дополнительные усилия, необходимые для перехода на Linux, и вы по крайней мере войдете в домен Linux, который сам по себе является чрезвычайно важным инструментом.
Для готовых решений вы можете попытаться нацелиться на Cloudera quickstart VM или MapR quickstart VM , так как это наиболее широко используемые дистрибутивы. Используя песочницы, вы пропустите процесс установки (который может быть беспокойным, если вы не знаете, чего хотите, и особенно, если вы не знакомы с Linux), и сразу перейдете к использованию инструментов. Благодаря наличию хорошей документации для крупных поставщиков, таких как Cloudera и MapR, вы также столкнетесь с меньшими проблемами при доступе к инструментам, которые хотите изучить.
Для получения более подробной информации о настройке песочницы следуйте рекомендациям по установке, установленным поставщиком (также указанным на страницах загрузки в качестве руководства по началу работы).
После настройки песочницы вы можете использовать множество различных способов доступа к Hive и Pig. Вы можете использовать интерфейс командной строки для Hive (называемый beeline). Если вы знакомы с JDBC, вы можете получить доступ к Hive через него. Установите Apache-Thrift, чтобы включить более широкие возможности доступа, но вы также можете сохранить его на потом.
Я бы не рекомендовал изучать свинью, если у вас нет для нее особого применения. Если вы знакомы с Java (или Scala, или даже Python, среди других вариантов), попробуйте написать несколько заданий в стиле Map-Reduce, чтобы узнать больше о том, как работает Hadoop. Откройте интерфейс Ambari (или Cloudera Manger и т. Д.), Который предварительно сконфигурирован с этими песочницами, и просмотрите инструменты и сервисы, которые предварительно упакованы с песочницей. Это наиболее распространенные из них и могут быть использованы в качестве полезного списка для начинающих. Начните узнавать о них (но пропустите Pig, если можете, даже если он предварительно установлен;)
Как только вы ознакомитесь с имеющейся у вас песочницей, я бы предложил перейти на Apache Nifi, который имеет более простую кривую обучения и дает большую гибкость. Но вам, скорее всего, придется установить новую песочницу для этого. Это также может послужить хорошим упражнением для изучения. Интегрируйте это с вашей песочницей Hadoop, реализуйте несколько приличных сценариев использования, и у вас будет хороший опыт.