У меня есть проблема, похожая на эту: Извлечение таблицы из таблицы PDF без вертикальных линий
Я мог бы получить текст в LTTextBoxHor Horizontal с использованием PDFMinor, но весь текст разные столбцы идут в одном текстовом поле. Я планирую применить некоторые логики c к координатам текста, чтобы я мог предположить, что 2 текста находятся в одном столбце, если их координаты приблизительно совпадают (см. Пример изображения ниже)
Однако, когда текст был извлечен из верхней строки, он пришел как - «ФЕДЕРАЛЬНОЕ СОСТОЯНИЕ», а снизу LTTextBoxHor Horizontal оно пришло как «НАЛОГ НА СУММУ»
Похоже, СУММА ниже ФЕДЕРАЛЬНОЙ, но на самом деле СУММА ниже ГОСУДАРСТВА
В случае, если у вас есть лучшая логика c или альтернативный инструмент / код на любом языке для извлечения этих табличных данных без границ столбцов, что поможет
![sample image](https://i.stack.imgur.com/Ms3iM.png)