Команда readseg -dump
записывает только все содержимое сегмента в виде простого текста в выходной каталог segmentAllContent
.Он не запускает индексатор и, следовательно, не вызывает плагин index-replace.Вы можете использовать команду bin/nutch indexchecker
, чтобы проверить, правильно ли настроен плагин.
Обратите внимание, что замена индекса плагина недоступна в Nutch 1.4, она была добавлена с Nutch 1.11.
Пример использования indexchecker для проверки плагина index-replace:
% bin/nutch indexchecker \
-Dplugin.includes='protocol-okhttp|parse-html|index-(basic|replace|static)' \
-Dindexingfilter.order='org.apache.nutch.indexer.basic.BasicIndexingFilter org.apache.nutch.indexer.staticfield.StaticFieldIndexer org.apache.nutch.indexer.replace.ReplaceIndexer' \
-Dindex.static='category:unknown' \
-Dindex.replace.regexp=$'hostmatch=localhost\ncategory=/.+/intranet/' \
http://localhost/
...
host : localhost
id : http://localhost/
title : Apache2 Ubuntu Default Page: It works
category : intranet
url : http://localhost/
...
- плагин index-static настроен на добавление поля «категория» со значением «unknown»
- плагин index-replace меняет значение на «интранет», если имя хоста «localhost» (нотация
$'...'
расширяется \n
)