Неправильный синтаксический анализ с PdfTextExtractor iText - PullRequest
1 голос
/ 09 сентября 2011

Я сталкиваюсь с проблемой при попытке прочитать содержимое документа PDF. Я использую iText 2.1.7 с Java, и мне нужно проанализировать содержимое документа PDF: сначала я использовал PdfTextExtractor getTextFromPage метод, и он работал правильно, но только когда страница является просто текстом, если он содержит изображение, тогда строка, которую я получаю с getTextFromPage, представляет собой набор бессмысленных символов (может быть, другую кодировку символов?), и я теряю содержание всей страницы. Я пробовал использовать последнюю версию iText, и она отлично работает, но если я не ошибаюсь, лицензия не будет полностью бесплатной (я работаю в веб-приложении для коммерческого клиента, который обслуживает PDF-файлы на лету), поэтому я не могу использовать это. Буду очень признателен, если у вас есть какие-либо предложения.

Если вам это нужно, вот код:

PdfReader pdf = new PdfReader(doc);  //doc is just a byte[]
int pageCount = pdf.getNumberOfPages();
for (int i = 1; i <= pageCount; i++) {
    PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(pdf);
    String pageText = pdfTextExtractor.getTextFromPage(i);

Заранее спасибо, привет.

1 Ответ

1 голос
/ 12 сентября 2011

Я думаю, что у вас в PDF есть встроенное изображение.Я не думаю, что iText 2.1.7 справится с этим.Вы можете найти информацию о лицензии здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...