Я сталкиваюсь с проблемой при попытке прочитать содержимое документа PDF. Я использую iText 2.1.7 с Java, и мне нужно проанализировать содержимое документа PDF: сначала я использовал PdfTextExtractor getTextFromPage метод, и он работал правильно, но только когда страница является просто текстом, если он содержит изображение, тогда строка, которую я получаю с getTextFromPage, представляет собой набор бессмысленных символов (может быть, другую кодировку символов?), и я теряю содержание всей страницы. Я пробовал использовать последнюю версию iText, и она отлично работает, но если я не ошибаюсь, лицензия не будет полностью бесплатной (я работаю в веб-приложении для коммерческого клиента, который обслуживает PDF-файлы на лету), поэтому я не могу использовать это. Буду очень признателен, если у вас есть какие-либо предложения.
Если вам это нужно, вот код:
PdfReader pdf = new PdfReader(doc); //doc is just a byte[]
int pageCount = pdf.getNumberOfPages();
for (int i = 1; i <= pageCount; i++) {
PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(pdf);
String pageText = pdfTextExtractor.getTextFromPage(i);
Заранее спасибо, привет.