С solr-4.9 (последней версией на данный момент) извлечение данных из полноформатных документов, таких как pdfs, электронные таблицы (семейство xls, xlxs), презентаций (ppt, ppts), документации (doc, txt и т. Д.), Стало довольно простым. ,
Примеры примеров кода, представленные в загруженном архиве с
здесь содержит базовый шаблонный шаблон solr для быстрого начала работы.
Необходимые изменения конфигурации:
Измените solrConfig.xml
на следующие строки:
<lib dir="<path_to_extraction_libs>" regex=".*\.jar" />
<lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />
создайте обработчик запроса следующим образом:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults" />
</requestHandler>
2.Добавьте необходимые файлы из solrExample в ваш проект.
3. Определите схему в соответствии с вашими потребностями и выполните запрос типа:
curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"
зайдите на портал GUI и запросите, чтобы увидеть проиндексированное содержимое.
Дайте мне знать, если у вас возникнут проблемы.