Solr - возвращение фрагментов из проиндексированных данных - PullRequest
0 голосов
/ 27 февраля 2019

У меня настроен Solr / Lucene, где я проиндексировал набор документов (файлы MS Word) и могу с удовольствием искать содержимое этих документов.Однако я хотел бы вернуть фрагмент содержимого документа, в котором показано, где находится соответствующая строка (+/- 5 слов из условия соответствия).Я пытался следить за целым рядом посещений Google, но моя индексация, по-видимому, не имеет прямого доступа к «контенту».

Может кто-нибудь дать мне несколько простых и простых указателей на то, где я мог допустить ошибкина этом - я основывал всю свою работу до сих пор на рекомендациях и примерах справочного руководства Solr - поэтому я не уверен, что проблема заключается в параметрах поиска или исходном индексе.

Я делаю это для того, чтобы создать четкий набор требований пользователя для создания конечного решения, а не создавать конечное решение самостоятельно, поэтому я не специалист по инструментам и не должен им стать, просто нужнодоказательства того, что возможно с этим набором инструментов.

1 Ответ

0 голосов
/ 06 марта 2019

Как отметил MatsLindh выше, проблема заключалась в том, что конфиг не отображал фактическое содержимое анализа Tika в определенном поле, и поэтому не было полного содержимого текста для отображения и выделения

ToЧтобы решить эту проблему, я перешел по ссылке (https://lucene.apache.org/solr/guide/7_1/uploading-data-with-solr-cell-using-apache-tika.html#configuring-the-solr-extractingrequesthandler) к руководящим документам, рассмотрел часть на fmap и использовал пример, приведенный для «Дата последнего изменения», в качестве руководства по применению.

Затем я пошел кМой файл solrconfig.xml в соответствующей основной папке и добавлен в следующей строке кода под уже существующей записью fmap:

  <str name="fmap.content">testcontent</str>

Я ранее настроил поле testcontent в веб-интерфейсе solr в моемЗатем я перезапустил свою строку индексации через командную строку, и это, казалось, помогло с точки зрения извлечения основного содержимого и добавления его с основным упором.

Всем спасибо за вклад в это- еще много чего я хочу проверить, чтобы помочь разработать четкий набор требований, но это действительно помогает доказать некоторые изосновы не завершены.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...