Я искал два дня и не смог найти ответ.
У меня установлен solr из репозитория на сервере Ubuntu, работающем на tomcat 6. Я добавил jar solr-cellи тика библиотеки.
Я могу запустить команду curl, которая работает для некоторых файлов PDF и прекрасно индексирует их, но не работает для других.Сначала я подумал, что некоторые файлы были повреждены, но это не так.Мне кажется, что между теми, кто работает, и теми, которые не работают, нет существенной разницы.
Ошибка, которую я получаю, - ошибка 500 - см. Пример здесь
Запрашиваемый мной запрос curl:
$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"
Это отлично работает для некоторых PDF-файлов, но не для других.
Я считаю, что у меня установлен solr 1.4.0.
Любая помощь будет признательна - спасибо
- РЕДАКТИРОВАТЬ - Я использую Ubuntu 10.04.1, если это вообще помогает.