Нет результатов при поиске в индексированном PDF с помощью Solr Cell - PullRequest
1 голос
/ 07 февраля 2012

Я некоторое время работал с Solr, недавно попробовал компонент solr-cell и индексирую некоторые PDF-файлы, однако у меня точно такая же проблема, как в этой теме .

Когда я ищу *: * в консоли администратора, файлы PDF отображаются в списке.Однако, когда я ищу контент в PDF, я не получаю результатов.

Я уже попробовал команду из ответа, данного там, без удачи, у меня все еще та же проблема, я пробовал с разными версиями Solr (Я использую 3.5 btw), разные PDF, я изменил поля в schema.xml, я изменил RequestHandlers в solrconfig.xml, но, похоже, ничего не работает.Любая помощь будет признательна.

1 Ответ

0 голосов
/ 09 февраля 2012

Я наконец заработал. Оказывается, это была проблема с входным параметром fmap.content. Я не объявлял это непосредственно в RequestHandler в файле solrconfig.xml, вместо этого я передавал его в команде curl, которую использовал для индексации файла PDF:

curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"

Я знаю, что этот способ тоже должен работать, но, как вы можете видеть, вместо «fmap» была «карта» (Я использовал пример книги из предыдущей версии solr).

Я решил оставить входной параметр fmap явно объявленным в файле solrconfig.xml, чтобы избавить меня от любых проблем:

<str name="fmap.content">text</str>


Спасибо за вашу помощь.

...