Альтернатива Tika / PDFBox для разбора PDF в Solr (любая версия более поздняя, ​​чем 1.4) - PullRequest
4 голосов
/ 16 ноября 2011

Похоже, что Solr неправильно анализирует мои PDF-файлы.Мне было интересно, есть ли какая-либо другая альтернатива использованию Apache Tika (который, я считаю, использует PDFBox для внутреннего использования) для анализа файлов PDF?Я, кажется, получаю случайные пробелы между моим контентом при использовании этого.Я изолировал проблему, запустив PDF через PDFBox напрямую (последняя версия), в которой есть та же проблема.

Некоторые коммерческие программы OCR, такие как Omnifind, отлично работают с PDF, но мы не можем интегрировать их с Solr в одном и том жепуть и покупка тоже не вариант.

Ответы [ 3 ]

2 голосов
/ 16 ноября 2011

Как показывает ответ на этот вопрос SO , это связано с природой самого формата PDF.

Возможно, что параметры распознавания лучше справляются с этой проблемой, чем PDFBox.Есть несколько бесплатных опций OCR, таких как Tesseract и Ocropus , но я понятия не имею, насколько хорошо они работают или их можно легко интегрировать с Solr.

1 голос
/ 16 ноября 2011

Я использую jpod в качестве резервной библиотеки для извлечения из pdf, когда pdfbox полностью выходит из строя (зависание, сбой ...), поэтому, по крайней мере, в некоторых случаях он работает лучше, чем pdbbox для меня.

1 голос
/ 16 ноября 2011

Xpdf содержит pdftotext, который конвертирует документы намного лучше, чем Tika.

...