Как мне индексировать документы в SOLR? - PullRequest
6 голосов
/ 10 мая 2010

Я запускаю Solr 1.4 в Ubuntu 10.04 (установленной через apt-get solr-tomcat), и, похоже, он работает нормально. У меня возникли трудности с поиском какой-либо связной информации о том, как индексировать документы. Я новичок в SOLR, так что терпите меня! У меня есть папка (/ mnt / folder), которая представляет собой смонтированный общий ресурс Windows, который содержит файлы Word и PDF, которые я хотел бы проиндексировать. Какой самый простой способ получить SOLR для индексации всей папки?

Документация для SOLR довольно скудная, невозможно найти какие-либо приличные учебники по работе с ней, поэтому любая помощь будет высоко оценена!

S

Ответы [ 3 ]

7 голосов
/ 10 мая 2010

Взгляните на Solr wiki , это довольно тщательная документация.

В частности, см. ExtractingRequestHandler , который позволяет индексировать двоичные файлы, такие как документы Word и PDF. Вот введение в тему.

Если вам не хватает вики, есть также великая книга о Solr .

1 голос
/ 11 мая 2010

Я обнаружил те же проблемы с основной документацией, но я наткнулся на это очень полезное справочное руководство от LucidImagination, которое помогло прояснить многое о SOLR:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

0 голосов
/ 25 августа 2011

Обработка полноформатных документов с помощью Solr: http://wiki.apache.org/solr/UpdateRichDocuments

...