Apache Nutch не индексирует весь сайт, только подпапки - PullRequest
1 голос
/ 14 февраля 2011

Apache Nutch 1.2 не индексирует весь сайт, только подпапки. Моя индексная страница содержит ссылки в большинстве областей / подпапок моего сайта. Например вещи, студенты, исследования ... Но чокнуться ползать только в одной конкретной папке - "студенты" в этом случае. Похоже, что ссылки в других каталогах не следуют.

ползать-urlfilter.txt: + ^ http://www5.my -domain.de /

seed.txt в URL-папке: http://www5.my -domain.de /

Начиная с NUTCH (Windows / Linux оба используются): обход контента "D: \ Program \ nutch-1.2 \ URLs" -dir "D: \ Program \ nutch-1.2 \ обход" -depth 10 -topN 1000000

Испытываются различные варианты глубины (5-23) и topN (100-1000000). Предоставление дополнительных ссылок в seed.txt совсем не помогает, но по-прежнему не следует ссылкам, найденным на вставленных страницах.

Интересно, что сканирование gnu.org работает отлично. Нет robots.txt или предотвращения мета-тегов, используемых на моем сайте.

Есть идеи?

Ответы [ 2 ]

2 голосов
/ 02 июля 2013

При попытке сканировать все ссылки со страницы индекса я обнаружил, что Nutch был ограничен ровно 100 ссылками около 1000. Параметр, который сдерживал меня, был:

db.max.outlinks.per.page

Установка этого значения в 2000 позволила Нучу проиндексировать все из них за один выстрел.

1 голос
/ 17 апреля 2011

Проверьте, есть ли у вас ограничение внутридоменных ссылок (свойство false в nutch-site.xml). Также обратите внимание на другие свойства, такие как максимальные внутри-дополнительные ссылки на страницу и размер http. Иногда они дают неправильные результаты во время сканирования.

Ciao!

...