Я использовал pdfbox для извлечения текстовой информации из PDF-файлов. Я успешно проанализировал все свойства текста, такие как имя шрифта, шрифт, размер, положение и т. Д.
ПРОБЛЕМА: Я использую pdfbox1.2.1 (последняя версия). GetCharacter () в классе TextPosition возвращает полную строку, кроме последнего символа. Последний символ анализируется как отдельная строка.
Пример: "Как дела" анализируется как "Как дела" и "вы" (2 отдельные строки).
Я не хочу, чтобы это случилось таким образом ..
Кто-нибудь сталкивался с этим? .. я что-то делаю не так ?? .. жду ответа ..
Спасибо и С уважением,
Magggi