В кластере hadoop следует ли устанавливать куст на всех узлах?Установить Свинья - PullRequest
0 голосов
/ 11 июня 2018

Я новичок в Hadoop / Pig, и я только начал читать документы.
Существует множество блогов по установке Hadoop в режиме кластера.
Я знаю, что Pig работает поверх Hadoop.

Мой вопрос таков: Hadoop установлен на всех узлах кластера.
Стоит ли также устанавливать Pig на все узлы кластера или только на главный узел?

Ответы [ 2 ]

0 голосов
/ 12 июня 2018

Я не могу сказать, касается ли вопрос Hive или Pig, но между клиентами и серверами есть разница.

Для Hive основными службами являются Metastore и HiveServer2.Вы можете установить эти демоны на одном сервере, чтобы улучшить сетевой трафик между metastore и компилятором запросов Hive.Вам нужен только один клиент, чтобы общаться с этими мастерами.

Для Pig он напрямую связывается с YARN и HDFS (опционально Hive, если вы используете Hcatalog).Опять же, это всего лишь клиент, поэтому он нужен только одному хосту.

Обычно предпочтительнее иметь выделенный набор машин для Hive и вспомогательную СУБД для метастаза (Mysql или Postgres - наиболее популярные варианты)

Вам также не нужно "установить свинью в кластер ".Например, я мог бы получить конфиги Hadoop XML и запустить код Pig для кластера YARN с любого внешнего компьютера после локальной загрузки Pig (то же самое относится и к Spark)

0 голосов
/ 11 июня 2018

Вы хотите установить Hive Metastore и Hive Server на 2 разных узла.По умолчанию в hive используется база данных derby, но большинство людей предпочитают использовать MySQL, поэтому также будет присутствовать демон сервера MYSQL.Так что больше вас не смущают:

  1. Установите HiveServer и сервер WebHcat на одном узле
  2. Установите Hive Metastore и сервер MySQL на другом узле.

Thisэто лучшая практикаЕсли у вас есть другие сомнения, вы можете спросить!

...