Понимание PDF DOM - PullRequest
       3

Понимание PDF DOM

1 голос
/ 29 апреля 2011

Я пишу приложение, которое должно читать и интерпретировать данные, хранящиеся в некоторых файлах PDF.Чтение завершено, но я могу получить дамп всего слов на странице, а не формат слов.Я имею в виду, что если мне нужно извлечь таблицу, я получаю числа в таблице, но не разметку, которая определяет таблицу.

Кроме того, используется некоторое форматирование, которое отображает некоторые из этих чиселв скобках (это означает, что эти числа являются отрицательными), но сами скобки не являются частью текста.Следовательно, я не могу различить положительные и отрицательные числа, присутствующие в таблице PDF!

Как получить разметку PDF вместе с текстом?Похожа ли структура PDF на XML с тегами, используемыми для разметки таблиц и т. Д.?Если нет, то есть ли ресурс, который описывает основные функции PDF DOM?

Я использую VBA и библиотеку Acrobat (AcroExch и т. Д.)

Ответы [ 4 ]

4 голосов
/ 29 апреля 2011

Не существует такого понятия, как «разметка PDF» в смысле HTML и т. Д. Таблицу в PDF нельзя отличить от штриховой графики, за исключением использования OCR, которое может быть подвержено ошибкам, если макет сложный.Он просто рисуется с использованием геометрических фигур, как в программе векторной графики.

3 голосов
/ 29 апреля 2011

"Является ли PDF похожим по структуре на XML с тегами, используемыми для разметки таблиц и т. Д .?"

Нет, совсем нет.

И не существует такой вещи, как «DOM».Google для файла с именем * PDF32000_2008.pdf *.Текущая версия PDF для v1.7 (спецификация ISO) - это тот файл.Вы должны быть в состоянии найти его на веб-сайте Adobe.

2 голосов
/ 30 апреля 2011

Может быть, то, чего вы хотите достичь, можно сделать с меньшими усилиями и быстрее, используя TET , набор инструментов для извлечения текста, созданный опытными людьми из pdflib.com (http://www.pdflib.com/products/tet/) ??

AFAIR, TET также имеет некоторую (ограниченную) поддержку для определения таблицы ....

2 голосов
/ 29 апреля 2011

Как указано выше, текст в PDF не имеет структуры.Вы можете посмотреть спецификацию здесь .Однако для некоторых очень специфических файлов есть нечто, называемое PDF-тегами или PDF-помеченным содержимым, которое является довольно новым и нацелено на придание PDF-документам некоторой структуры.Если вы нацелены именно на этот тип файлов, вы можете чего-то достичь.Подробнее см. В главе 10 («Обмен документами») спецификации Adobe.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...