Nutch crawler находит только подмножество ссылок на данной странице? - PullRequest
0 голосов
/ 28 ноября 2011

Я использую следующую команду для сканирования одной страницы с 788 ссылками:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

Приведенная выше команда может найти только 72 URL! Вот вывод для nutch readdb ./crawls/crawldb/ -stats

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done

Мой regex-urlfilter.txt имеет настройки по умолчанию, и я использую Nutch 1.4.

Любая помощь приветствуется.

1 Ответ

1 голос
/ 07 марта 2012

У меня была похожая проблема.В моем случае проблема была http.content.limit.Значением по умолчанию является «65536».Если ваша страница больше, она будет обрезана и ссылки могут быть потеряны.

...