PDF - Получить координаты текста в LTTextBoxHorizont - PullRequest
0 голосов
/ 13 апреля 2020

У меня есть проблема, похожая на эту: Извлечение таблицы из таблицы PDF без вертикальных линий
Я мог бы получить текст в LTTextBoxHor Horizontal с использованием PDFMinor, но весь текст разные столбцы идут в одном текстовом поле. Я планирую применить некоторые логики c к координатам текста, чтобы я мог предположить, что 2 текста находятся в одном столбце, если их координаты приблизительно совпадают (см. Пример изображения ниже)
Однако, когда текст был извлечен из верхней строки, он пришел как - «ФЕДЕРАЛЬНОЕ СОСТОЯНИЕ», а снизу LTTextBoxHor Horizontal оно пришло как «НАЛОГ НА СУММУ»
Похоже, СУММА ниже ФЕДЕРАЛЬНОЙ, но на самом деле СУММА ниже ГОСУДАРСТВА

В случае, если у вас есть лучшая логика c или альтернативный инструмент / код на любом языке для извлечения этих табличных данных без границ столбцов, что поможет

sample image

...