Nutch 1.16 не находит ничего, кроме главной страницы - PullRequest
0 голосов
/ 11 апреля 2020

после прочтения учебника по 1.16, я сканировал http://nutch.apache.org/ и переносил его в solr 7.3.1. Нет проблем.

Затем я изменил конфигурацию на другие домены, кроме nutch.org. Но независимо от того, какой домен я пытаюсь сканировать, Nutch ТОЛЬКО находит страницу индекса, даже если я настраиваю regex-urlfilter.txt следующим образом:

принять что-либо еще

+.

Injector: Total urls rejected by filters: 0
Injector: Total urls injected after normalization and filtering: 1
Injector: Total urls injected but already in CrawlDb: 1
Injector: Total new urls injected: 0

Понятия не имею, что здесь не так, есть идеи?

thx

...