Question

Как я могу установить максимальное количество страниц для индексации на хост?я не хочу индексировать все миллионы страниц сайта, я хочу проиндексировать только первые 100000 найденных страниц.

Pascal Dimassimo · Answer 1 · 06 октября 2010

При глубине = 10 и topN = 1000 в вашем индексе будет не более 10000 документов (если вы не сканируете повторно).Параметр глубины указывает, сколько итераций Nutch будет выполнять.Параметр 'topN' контролирует, сколько максимальных URL будет выбрано за одну итерацию.Таким образом, умножение «глубины» на «topN» дает приблизительное значение количества URL, которые будут проиндексированы.Это приблизительное значение, поскольку у вас могут быть URL-адреса, для которых истечет время ожидания или вы получите 404.

Если вы не хотите повторно сканировать, убедитесь, что установлено значение db.fetch.interval.defaultс достаточно высоким значением для завершения задания сканирования.Если задание сканирования не будет выполнено по истечении этого интервала, вы начнете повторное сканирование некоторых URL-адресов, поэтому число проиндексированных URL-адресов будет меньше, чем глубина * topN.

Nutch Crawler - как установить максимальное количество ссылок на хост

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Nutch Crawler - как установить максимальное количество ссылок на хост

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы