Плагин «index-jexl-filter» позволяет исключить документы из индексации, но они все еще сканируются, анализируются и отслеживаются исходящие ссылки.
- активировать плагин, добавив его в свойство "plugin.includes"
- определяет Jexl выражение в свойстве "index.jexl.filter", которое оценивается как ложное для родительской страницы. Помимо самого URL, в контексте Jexl доступны также статус HTTP, заголовок и многие другие переменные. В случае сомнений взгляните на класс JexlIndexingFilter .
Вы можете легко проверить выражение:
% bin/nutch indexchecker \
-Dplugin.includes='protocol-okhttp|parse-html|index-(basic|jexl-filter)' \
-Dindex.jexl.filter=' url != "http://localhost/" ' http://localhost/
fetching: http://localhost/
...
Document discarded by indexing filter
Другие URL индексируются, то есть отображаются индексированные поля:
% bin/nutch indexchecker \
-Dplugin.includes='protocol-okhttp|parse-html|index-(basic|jexl-filter)' \
-Dindex.jexl.filter=' url != "http://localhost/" ' http://localhost/index.html
fetching: http://localhost/index.html
...
title : Apache2 Ubuntu Default Page: It works
url : http://localhost/index.html
...