Индексирование PDF-файла с помощью SOLR - PullRequest
0 голосов
/ 27 сентября 2011

Я использую Solrj для индексации PDF-файлов с помощью SOLR, но некоторые файлы не могут индексироваться и делают исключение

GRAVE: Error: Could not parse predefined CMAP file for 'Adobe-Identity-UCS'
java.lang.NoSuchMethodError: org.apache.fontbox.cmap.CMap.lookup(II)Ljava/lang/String;

Можете ли вы сказать мне, в чем проблема?Спасибо

1 Ответ

1 голос
/ 27 сентября 2011

Кажется, что есть некоторые несоответствия с jar-файлами шрифтов apache, в которых упоминается, что метод не найден.
Можете ли вы подтвердить, что jar-файлы для tika и всех ее зависимостей синхронизированы и являются теми, которые включены в сборку.
Вы также можете проверить автономно, если синтаксический анализ документов работает нормально, используя jars проекта Apache Tika.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...