Question

Я использовал pdfbox для извлечения текстовой информации из PDF-файлов. Я успешно проанализировал все свойства текста, такие как имя шрифта, шрифт, размер, положение и т. Д.

ПРОБЛЕМА: Я использую pdfbox1.2.1 (последняя версия). GetCharacter () в классе TextPosition возвращает полную строку, кроме последнего символа. Последний символ анализируется как отдельная строка.

Пример: "Как дела" анализируется как "Как дела" и "вы" (2 отдельные строки).

Я не хочу, чтобы это случилось таким образом ..

Кто-нибудь сталкивался с этим? .. я что-то делаю не так ?? .. жду ответа ..

Спасибо и С уважением, Magggi

Magggi · Answer 1 · 30 августа 2010

Эта проблема решена.

Следующий код в processEncodedText( byte[] string ) в PDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

следует изменить на

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

С уважением, Maggi

Neeraj · Answer 2 · 30 июня 2012

Да.Эта проблема решена с помощью pdfbox.
Попробуйте последнюю версию pdfbox.Последняя версия может быть загружена с http://pdfbox.apache.org/download.html

Java - PDFBox - Извлечение текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java - PDFBox - Извлечение текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы