Как мне программно конвертировать PDF в HTML? - PullRequest
1 голос
/ 26 марта 2010

Существуют ли какие-либо классы, COM-объекты, утилиты командной строки или что-либо еще, для чего я могу создать API, для которого можно конвертировать PDF в документ HTML? Очевидно, что преобразование может быть немного грубым, поскольку PDF-файлы могут содержать намного больше, чем может описать HTML. Я нашел утилиту под названием pdftohtml в Source Forge, но, честно говоря, она делает ужасную работу с конвертацией. Меня не волнует, является ли программное обеспечение бесплатным или коммерческим, но есть ли вообще что-нибудь, что я могу включить в свое собственное программное обеспечение, чтобы сделать такого рода преобразование хотя бы прилично? Я знаю, что Google разработал свой собственный метод для этого, поскольку вы можете нажать «Просмотр в формате HTML» на PDF-документе, прикрепленном к электронному письму через Gmail, но я надеялся, что что-то будет доступно для широкой публики.

Помните, PDF в HTML. Я НЕ беспокоюсь о HTML в PDF.

Ответы [ 3 ]

0 голосов
/ 29 марта 2010

хорошо для решений PDF на основе Java ... у нас нет чистого способа, я думаю, все еще ... все решения примитивны и вид обходных путей ... Нет простого решения для 1. Разработка шаблона PDF 2. Затем во время выполнения, используя Java, заполните данные в этот шаблон ... либо с использованием XML или других источников данных ...

такое простое требование, и NONE пока не имеет хорошего "открытого и бесплатного" решения!

Eclipse BIRT приближается .. но не обрабатывает элементы штрих-кода ..OOB.

0 голосов
/ 30 декабря 2015

Вы искали pdf2htmlEX (C ++), который конвертирует PDF в HTML без потери текста или формата.

Для дальнейшего преобразования в семантический HTML вы можете обработать вывод pdf2htmlEX, используя мой проект Transcript (Python). Однако он больше не без потерь и лучше всего работает с документами, не слишком отличающимися от обычной визуальной компоновки.

0 голосов
/ 26 марта 2010

хорошо, одно решение, о котором я могу подумать, это написать небольшую программу, которая читает текст в формате pdf с использованием библиотеки под названием iText, а затем генерирует html-файлы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...