Индексирование PDF с номерами страниц с помощью Solr - PullRequest
5 голосов
/ 04 ноября 2010

Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler.Я хотел бы отобразить номер страницы вместе с совпадениями в документе, например, «термин foo был найден в bar.pdf на страницах 2, 3 и 5».

Возможно ли включить номера страниц врезультат запроса как этот?

1 Ответ

5 голосов
/ 04 ноября 2010

Это потребует определенных усилий по разработке, но вы можете достичь этого, проиндексировав каждую страницу каждого документа в качестве отдельного документа Solr, а затем использовать сворачивание поля для группировки различных обращений к страницам для каждого документа.

Обратите внимание, что для этого вам нужен ночной режим, свертывание полей не реализовано ни в одной из выпущенных на данный момент версий Solr.

Также обратите внимание: свертывание полей реализовано в версии Solr 3.3 .В следующей большой версии ожидается больше обновлений ( Solr 4.0 )

...