Разбор PDF-файла с использованием PDFBox - столбцы перекрываются - PullRequest
0 голосов
/ 22 февраля 2019

У меня есть файл PDF, и мне нужно проанализировать его с макетом.Я использую Apache PDFBox для анализа PDF и использую класс PDFLayoutTextStripper для разметки.

Sample PDF

Я привожу пример из образца PDF-изображения.По ряду 120.01.191;столбец с текстом, который начинается с «LODOS KUNDURA - NEVZAT BALIKÇI AYAK.İML», переполняется до следующего столбца, поэтому, пока приложение читает следующий столбец, я получил такой результат, как «.TAO 3 P4.4 S.A 94 T9., 66' .Проблема во втором, а третий столбец объединяется в один.Я хочу их отдельно как «ЛОДОС КУНДУРА - НЕВЗАТ БАЛИКЙ АЯК. ИМЛАТ ПАС. / 344949.66».

Есть ли способ избежать этой проблемы?Заранее спасибо.

...