Nutch заменить проанализированный контент перед индексацией - PullRequest
0 голосов
/ 24 декабря 2018

Я использую Nutch 1.15.Я хочу заменить некоторую строку проанализированного содержимого перед индексацией.

Есть ли способ написать регулярное выражение и заменить содержимое?

Пример:

Content : "This is the crawled page"

I want to replace "page" with string "content"

1 Ответ

0 голосов
/ 25 декабря 2018

Так как вы хотите сделать замену в контенте (проанализированный текст).Вы можете написать пользовательский IndexFilter, аналогичный https://github.com/apache/nutch/tree/master/src/plugin/index-replace, который манипулирует данными перед отправкой их в хранилище.

Предыдущий плагин работает только с полями метаданных, но должен обеспечить хороший обзоркак создать свой собственный.

Есть также нечто подобное, что вы можете сделать на стороне Solr, например, посмотрите на это сообщение в блоге

...