Как распечатать фактическое содержание PDF, который соответствует поисковому запросу в Solr 7.6.0 - PullRequest
0 голосов
/ 04 февраля 2019

Используемая версия Solr - 7.6.0 (Режим без схемы).Я попытался проиндексировать несколько документов PDF с помощью утилиты Post, предоставленной по умолчанию.Теперь, когда я делаю запрос, детали файла, содержащего строку запроса, отображаются правильно.Но я не мог видеть ни одного поля с фактическим содержанием представленного файла.Мой обработчик запросов Solrconfig.xml выглядит следующим образом:

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="uprefix">ignored_</str>
      <str name="fmap.a">ignored_</str>
      <str name="fmap.div">ignored_</str>
      <str name="fmap.content">text</str>
      <str name="captureAttr">true</str>
      <str name="lowernames">true</str>
      <bool name="ignoreTikaException">true</bool>
    </lst>
</requestHandler>

При публикации pdf-файлов для индексации автоматически созданный файл managed-schema.xml не содержал в себе никакого поля «Содержимое».Также при запросе отображаются только метаданные файла, такие как идентификатор, дата, заголовок, типы контента, размер потока, автор и т. Д., Но не выделяется фактическая информация о контенте.Просьба уточнить.«http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json"

Ответы [ 2 ]

0 голосов
/ 15 февраля 2019

Вот решение, которое помогло исправить мою проблему:

Поле " text " в схеме поставляется с сохраненным = "false" по умолчанию.Это поле должно быть истинным для отображения информации о содержимом.

Ссылка: Запрос Solr в PDF-файле не возвращает выделенное содержимое

0 голосов
/ 04 февраля 2019

Если вы можете выполнить поиск и, если это проблема выделения, есть другие параметры, которые можно рассмотреть для выделения.

hl.fl Указывает список полей, которые нужно выделить.Принимает список полей, разделенных запятыми или пробелами, для которых Solr должен генерировать выделенные фрагменты.

hl.fragsize Указывает приблизительный размер в символах фрагментов, которые следует учитывать при выделении.0 указывает, что фрагментация не должна учитываться, и следует использовать все значение поля.по умолчанию 100.

Ниже приведена ссылка со списком всех параметров.Вам нужно проверить, какой из них применим и работает в вашем случае.

Подсветка в solr

...