Nutch 1.13 слишком долго ползет - PullRequest
0 голосов
/ 03 декабря 2018

Я использую Nutch 1.13 в локальном режиме через код Java, который вызывается с помощью org.apache.hadoop.util.ToolRunner.Он работает на виртуальной машине Azure с 64-ГБ ОЗУ и 32-ядерным процессором.У меня есть четыре экземпляра этого Java-приложения, работающего на одной виртуальной машине.Для сканирования 50 начальных URL-адресов с глубиной 4 и TopN 1000 необходимо 4 часа, указанные ниже, - моя конфигурация nutch-site

<property>
  <name>fetcher.threads.fetch</name>
  <value>16</value>
  <description>
  </description>
</property>
<property>
  <name>fetcher.threads.per.queue</name>
  <value>10</value>
  <description>
   </description>
</property>

Может кто-нибудь подтвердить, использует ли эта настройка в полной мере многоядерную систему илиНужно ли использовать Hadoop явно?

Также при сканировании возникает ситуация, когда я могу получить желаемый дочерний URL-адрес, когда topN равен 10, но тот же дочерний URL-адрес не удается получить, когда topN равен 1000в чем может быть причина?

...