поиск в solr-ячейке работает для одних PDF, а не для других - PullRequest
2 голосов
/ 10 мая 2011

Я искал два дня и не смог найти ответ.

У меня установлен solr из репозитория на сервере Ubuntu, работающем на tomcat 6. Я добавил jar solr-cellи тика библиотеки.

Я могу запустить команду curl, которая работает для некоторых файлов PDF и прекрасно индексирует их, но не работает для других.Сначала я подумал, что некоторые файлы были повреждены, но это не так.Мне кажется, что между теми, кто работает, и теми, которые не работают, нет существенной разницы.

Ошибка, которую я получаю, - ошибка 500 - см. Пример здесь

Запрашиваемый мной запрос curl:

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"

Это отлично работает для некоторых PDF-файлов, но не для других.

Я считаю, что у меня установлен solr 1.4.0.

Любая помощь будет признательна - спасибо

- РЕДАКТИРОВАТЬ - Я использую Ubuntu 10.04.1, если это вообще помогает.

Ответы [ 2 ]

1 голос
/ 10 мая 2011

Исключение NullPointerException, вероятно, является ошибкой.Сообщите об этом PDFBox и / или Tika .

0 голосов
/ 16 мая 2011

ОК, ночной снимок solr использует PDFBox 1.3.1, а не текущий стабильный, который использует 0.7. *, Что является достаточным количеством изменений.

Я могу проиндексировать все PDF-файлы, используя эту версию снимка Solr. Это мне кажется чем-то, что будет исправлено в следующей стабильной версии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...