Nutch Crawler - как установить максимальное количество ссылок на хост - PullRequest
1 голос
/ 06 октября 2010

Как я могу установить максимальное количество страниц для индексации на хост?я не хочу индексировать все миллионы страниц сайта, я хочу проиндексировать только первые 100000 найденных страниц.

1 Ответ

0 голосов
/ 06 октября 2010

При глубине = 10 и topN = 1000 в вашем индексе будет не более 10000 документов (если вы не сканируете повторно).Параметр глубины указывает, сколько итераций Nutch будет выполнять.Параметр 'topN' контролирует, сколько максимальных URL будет выбрано за одну итерацию.Таким образом, умножение «глубины» на «topN» дает приблизительное значение количества URL, которые будут проиндексированы.Это приблизительное значение, поскольку у вас могут быть URL-адреса, для которых истечет время ожидания или вы получите 404.

Если вы не хотите повторно сканировать, убедитесь, что установлено значение db.fetch.interval.defaultс достаточно высоким значением для завершения задания сканирования.Если задание сканирования не будет выполнено по истечении этого интервала, вы начнете повторное сканирование некоторых URL-адресов, поэтому число проиндексированных URL-адресов будет меньше, чем глубина * topN.

...