Можем ли мы конвертировать PDF файлы в HTML, используя C, C ++ или Java (любой язык)? - PullRequest
2 голосов
/ 10 мая 2011

Мне нужно преобразовать PDF-файлы в HTML-файлы (на платформе IOS), чтобы я мог комментировать HTML-страницу с помощью Javascript.У меня был некоторый успех в аннотировании HTML-страниц, поэтому, если я могу конвертировать PDF в HTML, я могу выполнить свою задачу.Как я могу сделать преобразование?

Ответы [ 2 ]

10 голосов
/ 10 мая 2011

Преобразование из PDF обычно очень сложно (в лучшем случае).

PDF содержит инструкции по рисованию. «Линия отсюда туда», «эти символы в этих координатах». обычно информации о логическом значении этих линий, символов и изображений нет, хотя "Структура документа" становится все более распространенной.

Без «структуры документа» и «помеченного содержимого» очень трудно перейти от «стопки строк и символов» к «таблице с этой информацией в этих столбцах и строках».

Не невозможно, просто очень сложно.

И люди, которые работали над этой проблемой, не заинтересованы в том, чтобы делиться своим кодом бесплатно.

1 голос
/ 12 мая 2011

Конвертировать любой файл PDF будет сложно, некоторые из них слишком сложны для HTML.

Взгляните на libpoppler , он уже имеет функции pdf2html и является открытым исходным кодом, вы всегда можете расширить его, чтобы он соответствовал вашим требованиям.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...