Рекомендуемое распределение памяти - Apache Nutch 2.3.1, небольшой кластер. - PullRequest
0 голосов
/ 02 октября 2018

У меня кластер небольшого размера (10 машин).Каждый из них имеет 16 ГБ оперативной памяти (которую мы увеличим в будущем), 8 ядер, 3 ТБ диска.Мне нужно пролистать около 100 миллионов страниц, и для этого я должен использовать Apache Nutch 2.3.1.Требуется полная экосистема Hadoop.Поэтому я настроил Hadoop 2.7.x и Hbase 0.98.Теперь проблема заключается в том, как распределить память, чтобы обеспечить наилучшую производительность?

Каждая система подчиненного устройства имеет три JVM, которые работают, а именно datanode, node-manager, region-server.На этих узлах также будут работать jvms MAP-Reudce.Теперь, сколько памяти я должен выделить для datanode, node-manager, region-server и сколько для заданий мапперов / редукторов?

Nutch, Hbase-master, namenode, secondry-namenode, менеджер ресурсов будет на одномсистема (это будет мастер)

...