Я новичок в Apache Solr и хочу использовать его для индексации PDF-файлов. Мне удалось его запустить и запустить, и теперь я могу искать добавленные файлы PDF.
Однако мне нужно иметь возможность получить искомый текст из результатов.
Я нашел фрагмент xml в файле по умолчанию solrconfig.xml, касающийся именно этого:
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler" startup="lazy">
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
Исходя из того, что я получаю отсюда (http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika), Я думаю, мне нужно добавить в schema.xml новое поле (например, "content"), которое сохранит = "true" и indexed = "true". я не совсем уверен, как именно это сделать?
любая помощь приветствуется, спасибо