Для меня это свойство мне очень помогло, потому что медленный домен может замедлить всю фазу выборки:
<property>
<name>generate.max.count</name>
<value>50</value>
<description>The maximum number of urls in a single
fetchlist. -1 if unlimited. The urls are counted according
to the value of the parameter generator.count.mode.
</description>
</property>
Например, если вы уважаете robots.txt (поведение по умолчанию) идомен слишком длинный для сканирования, задержка будет: fetcher.max.crawl.delay.И большая часть этого домена в очереди будет замедлять всю фазу выборки, поэтому лучше ограничить generate.max.count.
Вы можете добавить это свойство для ограничения времени фазы выборки втаким же образом:
<property>
<name>fetcher.throughput.threshold.pages</name>
<value>1</value>
<description>The threshold of minimum pages per second. If the fetcher downloads less
pages per second than the configured threshold, the fetcher stops, preventing slow queue's
from stalling the throughput. This threshold must be an integer. This can be useful when
fetcher.timelimit.mins is hard to determine. The default value of -1 disables this check.
</description>
</property>
Но, пожалуйста, не трогайте свойство fetcher.threads.per.queue, вы попадете в черный список ... Это не очень хорошее решение для улучшения скорости сканирования..