Чтобы избежать дублирования данных, я намерен хранить только просканированный HTML-файл, но анализ HTML с Xpath выполняется фильтром или функцией в SOLR во время индексации.
HTML сам по себе не индексируется, но преобразуется в поля, которые solr будет индексировать с помощью Xpath.
Я новичок в SOLR, но я могу себе представить, что должен что-то сделатьнапример:
- Вызовите URL индекса БД
- Зарегистрируйте фильтр в SOLR, который будет принимать каждую запись и преобразовывать ее в несколько полей.
Спасибоесли у вас есть информация.