Из конфига, которым вы поделились. Я вижу, что на nutch-site.xml
у вас есть следующее:
<property>
<name>db.ignore.external.links</name>
<value>true</value>
</property>
Это эффективно игнорирует все внешние ссылки. В файле db-ignore-external-exemptions.txt
вы настроили несколько исключений:
+(?i)\.(jpg|png|gif)$
Но для того, чтобы эти настройки работали, вам нужно включить плагин urlfilter-ignoreexempt
. Вы можете видеть, как здесь .
С помощью этой комбинации вы можете просто игнорировать все внешние ссылки и просто добавлять в CrawlDB те, которые соответствуют правилам в файлах исключений (изображения в вашем случае).
Поскольку вы запускаете Nutch в рамках процесса Java, я советую установить автономную локальную настройку Nutch, в которой вы можете протестировать свою конфигурацию. bin/nutch parsechecker
, bin/nutch indexchecker
и bin/nutch plugin
очень полезны для отладки. Вы можете протестировать (используя эти команды) некоторые конфигурации с конкретными тестовыми примерами без необходимости запуска всего обхода (экономит много времени).