Я не могу сказать, касается ли вопрос Hive или Pig, но между клиентами и серверами есть разница.
Для Hive основными службами являются Metastore и HiveServer2.Вы можете установить эти демоны на одном сервере, чтобы улучшить сетевой трафик между metastore и компилятором запросов Hive.Вам нужен только один клиент, чтобы общаться с этими мастерами.
Для Pig он напрямую связывается с YARN и HDFS (опционально Hive, если вы используете Hcatalog).Опять же, это всего лишь клиент, поэтому он нужен только одному хосту.
Обычно предпочтительнее иметь выделенный набор машин для Hive и вспомогательную СУБД для метастаза (Mysql или Postgres - наиболее популярные варианты)
Вам также не нужно "установить свинью в кластер ".Например, я мог бы получить конфиги Hadoop XML и запустить код Pig для кластера YARN с любого внешнего компьютера после локальной загрузки Pig (то же самое относится и к Spark)