Java - PDFBox - Извлечение текста - PullRequest
5 голосов
/ 28 июля 2010

Я использовал pdfbox для извлечения текстовой информации из PDF-файлов. Я успешно проанализировал все свойства текста, такие как имя шрифта, шрифт, размер, положение и т. Д.

ПРОБЛЕМА: Я использую pdfbox1.2.1 (последняя версия). GetCharacter () в классе TextPosition возвращает полную строку, кроме последнего символа. Последний символ анализируется как отдельная строка.

Пример: "Как дела" анализируется как "Как дела" и "вы" (2 отдельные строки).

Я не хочу, чтобы это случилось таким образом ..

Кто-нибудь сталкивался с этим? .. я что-то делаю не так ?? .. жду ответа ..

Спасибо и С уважением, Magggi

Ответы [ 2 ]

3 голосов
/ 30 августа 2010

Эта проблема решена.

Следующий код в processEncodedText( byte[] string ) в PDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

следует изменить на

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

С уважением, Maggi

1 голос
/ 30 июня 2012

Да.Эта проблема решена с помощью pdfbox.
Попробуйте последнюю версию pdfbox.Последняя версия может быть загружена с http://pdfbox.apache.org/download.html

...