Какую версию Nutch вы используете? Я не знаком с Nutch, но загрузка по умолчанию Nutch 1.0 уже содержит правило в regex-normalize.xml , которое, похоже, решает эту проблему.
<!-- removes session ids from urls (such as jsessionid and PHPSESSID) -->
<regex>
<pattern>([;_]?((?i)l|j|bv_)?((?i)sid|phpsessid|sessionid)=.*?)(\?|&|#|$)</pattern>
<substitution>$4</substitution>
</regex>
Btw. regex-urlfilter.txt , похоже, тоже содержит что-то релевантное
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
Тогда в nutch-default.xml есть некоторые настройки, которые вы, возможно, захотите проверить
urlnormalizer.order
urlnormalizer.regex.file
plugin.includes
Если это не помогает, может быть, это так: Как я могу заставить сборщик использовать пользовательский Nutch-config?