Я использую Nutch 1.14, так как я использую индексатор GCS.Вот что у меня в nutch-site.xml
<property>
<name>index.replace.regexp</name>
<value>
urlmatch=.*example.com\/[a-zA-Z0-9-]+
url:category=/https:\/\/www.example.com\/([a-zA-Z0-9-]+)/$1/
</value>
</property>
Я получаю сообщение об ошибке:
$ grep 'replace' logs/hadoop.log
ERROR replace.ReplaceIndexer - Pattern
url:category=/https:\/\/www.example.com\/([a-zA-Z0-9-]+)/$1/, has invalid flags component
Я получаю то же самое, когда меняю строку в nutch-site.xmlto:
-url:category=/https:\/\/www.mydomain.com\/([a-zA-Z0-9-]+)/$1/2
Я хочу получить часть URL в категории.Пример: если url https://www.example.com/testcategory, мне нравится, когда категория будет testcategory
Спасибо.