Есть ли способ извлечь семантическую информацию из PDF? (преобразование PDF в чистый XHTML) - PullRequest
1 голос
/ 05 февраля 2010

Я нахожу способ извлечь семантическую структурную информацию (такую ​​как заголовок, заголовок, абзац или списки) из PDF. Потому что я хочу получить чистые структурные данные из PDF.

Наконец, я хочу создать чистый XHTML из PDF. Только со структурной информацией. Нет дизайна или макета.

Я знаю, PDF можно создавать без какой-либо структурной информации. Я не рассматриваю эти PDF-файлы. Только регулярно хорошо структурированные PDF-файлы рассматриваются.

Я новичок в PDF. Так что я не знаю, предлагает ли он правильную семантическую структуру или нет. Если он существует, его предложит библиотека. Поэтому я хочу знать, есть ли в спецификации PDF эта информация, и лучший способ получить эту информацию, если она существует.

Ответы [ 2 ]

1 голос
/ 05 февраля 2010

Я очень рекомендую прочитать спецификации PDF:

http://www.adobe.com/devnet/acrobat/pdfs/PDF32000_2008.pdf

В документе нет "семантической структуры", которую можно найти в файле HTML; это намного сложнее.

Формат файла в значительной степени основан на дереве объектов COS, которое, по сути, представляет собой набор объектов, ссылающихся друг на друга различными способами, но не в каком-либо определенном порядке (за некоторыми исключениями).

Некоторые из этих объектов содержат то, что вы, вероятно, после (страницы документа и т. Д.). Кроме того, эти объекты могут быть закодированы различными способами.

Очень сложно.

Я бы порекомендовал взглянуть на некоторые хорошо разработанные библиотеки PDF, такие как iText:

http://itextpdf.com/

0 голосов
/ 22 марта 2010

Что вы подразумеваете под «хорошо структурированным»?

Если PDF-файлы содержат отмеченный контент, вы можете получить практически идеальное извлечение семантических данных. В противном случае он просто не существует, но в некоторых случаях может быть «угадан».

...