Я создал инструмент извлечения pdf .Образец экрана прилагается. Пользователь может загрузить файл PDF и выбрать область данных, которую он хочет.Затем я беру pdf-координаты и номер страницы, а затем сохраняю их как шаблон.Как только пользователь предоставит список файлов pdf, инструмент сможет извлекать данные в соответствии с файлом шаблона. Мой инструмент очень похож на этот.
Теперь проблема в том, что в некоторых файлах PDF часть данных, необходимых для извлечения, перемещается на следующую страницу.(Причиной смещения является то, что я приведу пример . Если вы считаете, что список купленных вами предметов, Место напечатанной "Общая стоимость" зависит от числапредметов, которые вы купили: если длинный список длиннее, то внизу, в середине или около верха).
Поэтому сейчас я думаю о определить структуру pdf вместо получения координат.
Но у меня нет четкой идеи сделать это.Пожалуйста, поделитесь чем-нибудь, вы думаете, что поможет решить эту проблему.Я повторяю еще раз, что я пытаюсь получить данные из PDF-файла.Таким образом, можно захватить структуру файла pdf .
Моя идея заключается в том, что если я смогу идентифицировать структуру, тогда я могу сказать, где находится значение.Например, я попытался преобразовать pdf в html и попытаться перемещаться по значениям тега html.(body-> div-> table-> td-> etc.) Но это не удалось ..: (