Apache Nutch 1.2 не индексирует весь сайт, только подпапки. Моя индексная страница содержит ссылки в большинстве областей / подпапок моего сайта. Например вещи, студенты, исследования ... Но чокнуться ползать только в одной конкретной папке - "студенты" в этом случае. Похоже, что ссылки в других каталогах не следуют.
ползать-urlfilter.txt:
+ ^ http://www5.my -domain.de /
seed.txt в URL-папке:
http://www5.my -domain.de /
Начиная с NUTCH (Windows / Linux оба используются):
обход контента "D: \ Program \ nutch-1.2 \ URLs" -dir "D: \ Program \ nutch-1.2 \ обход" -depth 10 -topN 1000000
Испытываются различные варианты глубины (5-23) и topN (100-1000000). Предоставление дополнительных ссылок в seed.txt совсем не помогает, но по-прежнему не следует ссылкам, найденным на вставленных страницах.
Интересно, что сканирование gnu.org работает отлично. Нет robots.txt или предотвращения мета-тегов, используемых на моем сайте.
Есть идеи?