Я использую Nutch 1.13 в локальном режиме через код Java, который вызывается с помощью org.apache.hadoop.util.ToolRunner.Он работает на виртуальной машине Azure с 64-ГБ ОЗУ и 32-ядерным процессором.У меня есть четыре экземпляра этого Java-приложения, работающего на одной виртуальной машине.Для сканирования 50 начальных URL-адресов с глубиной 4 и TopN 1000 необходимо 4 часа, указанные ниже, - моя конфигурация nutch-site
<property>
<name>fetcher.threads.fetch</name>
<value>16</value>
<description>
</description>
</property>
<property>
<name>fetcher.threads.per.queue</name>
<value>10</value>
<description>
</description>
</property>
Может кто-нибудь подтвердить, использует ли эта настройка в полной мере многоядерную систему илиНужно ли использовать Hadoop явно?
Также при сканировании возникает ситуация, когда я могу получить желаемый дочерний URL-адрес, когда topN равен 10, но тот же дочерний URL-адрес не удается получить, когда topN равен 1000в чем может быть причина?