Я использую следующую команду для сканирования одной страницы с 788 ссылками:
nutch crawl urls/ -dir crawls -depth 1 -topN 1000
Приведенная выше команда может найти только 72 URL! Вот вывод для
nutch readdb ./crawls/crawldb/ -stats
CrawlDb statistics start: ./crawls/crawldb/
Statistics for CrawlDb: ./crawls/crawldb/
TOTAL urls: 72
retry 0: 72
min score: 0.009
avg score: 0.026777778
max score: 1.279
status 1 (db_unfetched): 71
status 2 (db_fetched): 1
CrawlDb statistics: done
Мой regex-urlfilter.txt
имеет настройки по умолчанию, и я использую Nutch 1.4.
Любая помощь приветствуется.