Как индексировать определенные теги в HTML с помощью Xpath и SOLR - PullRequest
0 голосов
/ 11 мая 2018

Чтобы избежать дублирования данных, я намерен хранить только просканированный HTML-файл, но анализ HTML с Xpath выполняется фильтром или функцией в SOLR во время индексации.

HTML сам по себе не индексируется, но преобразуется в поля, которые solr будет индексировать с помощью Xpath.

Я новичок в SOLR, но я могу себе представить, что должен что-то сделатьнапример:

  1. Вызовите URL индекса БД
  2. Зарегистрируйте фильтр в SOLR, который будет принимать каждую запись и преобразовывать ее в несколько полей.

Спасибоесли у вас есть информация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...