Question

Похоже, что Solr неправильно анализирует мои PDF-файлы.Мне было интересно, есть ли какая-либо другая альтернатива использованию Apache Tika (который, я считаю, использует PDFBox для внутреннего использования) для анализа файлов PDF?Я, кажется, получаю случайные пробелы между моим контентом при использовании этого.Я изолировал проблему, запустив PDF через PDFBox напрямую (последняя версия), в которой есть та же проблема.

Некоторые коммерческие программы OCR, такие как Omnifind, отлично работают с PDF, но мы не можем интегрировать их с Solr в одном и том жепуть и покупка тоже не вариант.

Tom De Leu · Answer 1 · 16 ноября 2011

Как показывает ответ на этот вопрос SO , это связано с природой самого формата PDF.

Возможно, что параметры распознавания лучше справляются с этой проблемой, чем PDFBox.Есть несколько бесплатных опций OCR, таких как Tesseract и Ocropus , но я понятия не имею, насколько хорошо они работают или их можно легко интегрировать с Solr.

Persimmonium · Answer 2 · 16 ноября 2011

Я использую jpod в качестве резервной библиотеки для извлечения из pdf, когда pdfbox полностью выходит из строя (зависание, сбой ...), поэтому, по крайней мере, в некоторых случаях он работает лучше, чем pdbbox для меня.

Okke Klein · Answer 3 · 16 ноября 2011

Xpdf содержит pdftotext, который конвертирует документы намного лучше, чем Tika.

Альтернатива Tika / PDFBox для разбора PDF в Solr (любая версия более поздняя, чем 1.4)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Альтернатива Tika / PDFBox для разбора PDF в Solr (любая версия более поздняя, ​​чем 1.4)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Альтернатива Tika / PDFBox для разбора PDF в Solr (любая версия более поздняя, чем 1.4)