после прочтения учебника по 1.16, я сканировал http://nutch.apache.org/ и переносил его в solr 7.3.1. Нет проблем.
Затем я изменил конфигурацию на другие домены, кроме nutch.org. Но независимо от того, какой домен я пытаюсь сканировать, Nutch ТОЛЬКО находит страницу индекса, даже если я настраиваю regex-urlfilter.txt следующим образом:
принять что-либо еще
+.
Injector: Total urls rejected by filters: 0
Injector: Total urls injected after normalization and filtering: 1
Injector: Total urls injected but already in CrawlDb: 1
Injector: Total new urls injected: 0
Понятия не имею, что здесь не так, есть идеи?
thx