Я пишу приложение, которое должно читать и интерпретировать данные, хранящиеся в некоторых файлах PDF.Чтение завершено, но я могу получить дамп всего слов на странице, а не формат слов.Я имею в виду, что если мне нужно извлечь таблицу, я получаю числа в таблице, но не разметку, которая определяет таблицу.
Кроме того, используется некоторое форматирование, которое отображает некоторые из этих чиселв скобках (это означает, что эти числа являются отрицательными), но сами скобки не являются частью текста.Следовательно, я не могу различить положительные и отрицательные числа, присутствующие в таблице PDF!
Как получить разметку PDF вместе с текстом?Похожа ли структура PDF на XML с тегами, используемыми для разметки таблиц и т. Д.?Если нет, то есть ли ресурс, который описывает основные функции PDF DOM?
Я использую VBA и библиотеку Acrobat (AcroExch и т. Д.)