Nutch Многопоточность - PullRequest
1 голос
/ 13 июня 2009

Я пытаюсь настроить Nutch для запуска многопоточного сканирования.

Однако у меня возникла проблема. Я не могу запустить сканирование с несколькими потоками, я изменил файл nutch-site.xml, чтобы использовать 25 потоков, но все же я вижу только 1 работающих потоков.

<property>
  <name>fetcher.threads.fetch</name>
  <value>25</value>
  <description>The number of FetcherThreads the fetcher should use.
    This is also determines the maximum number of requests that are 
    made at once (each FetcherThread handles one connection).</description>
</property>

<property>
  <name>fetcher.threads.per.host</name>
  <value>25</value>
  <description>This number is the maximum number of threads that
    should be allowed to access a host at one time.</description>
</property>

Я всегда получаю значение activeThreads = 25, spinWaiting = 24, fetchQueues.totalSize = некоторое значение.

В чем смысл этого, не могли бы вы объяснить, в чем проблема и как я могу ее решить.

Я буду очень признателен за вашу помощь.

Спасибо, Sumit

1 Ответ

2 голосов
/ 14 июня 2009

Я думаю, что ваша проблема связана с известной ошибкой с новым сборщиком Nutch. См. NUTCH-721 .

Вы можете попробовать использовать OldFetcher (если у вас Nutch 1.0), чтобы увидеть, решит ли это вашу проблему.

- Кен

...