Нужны советы по преобразованию PDF-каталога в HTML - PullRequest
0 голосов
/ 17 декабря 2011

У меня есть клиент, который занимается производством зубчатых колес и цепей, и поэтому у них есть каталог на 200 страниц, который в основном содержит текст, таблицы с числами и множество диаграмм. Я должен перенести контент (с сохранением форматирования) на новый веб-сайт, и я начал процесс передачи данных по одной странице за раз. Вот пример типа контента, с которым я имею дело:

enter image description here

Есть идеи, как я могу автоматизировать такое преобразование?

Ответы [ 2 ]

0 голосов
/ 19 декабря 2011

У нас есть инструмент для PDF2HTML5 на http://www.jpedal.org/html_index.php, который может удовлетворить ваши потребности.

0 голосов
/ 17 декабря 2011

pdftocairo

- это утилита преобразования, способная перекодировать pdf-содержимое в том виде, в каком оно , с сохранением точного макета в несколько форматов, одним из которых является svg

svg можно использовать в Интернете, на html-страницах браузеры Mozilla имеют встроенную программу просмотра SVG (для проводника требуется бесплатный плагин Adobe SVG Viewer)

это могло бы быть лучшим решением, однако нам нужно взглянуть на размер одного производимого SVG

для преобразования всех страниц pdf в svg (выглядит точно так же, как pdf-страница) сначала вам нужно разбить pdf на отдельные страницы в выделенном каталоге (затем вы перемещаете свой источник pdf на один каталог вверх)

pdftk yourfile.pdf burst && move yourfile.pdf ..

затем используйте pdftocairo рекурсивно

for f in *.pdf; do pdftocairo -svg $f; done

если размер получаемых svg не слишком велик, их можно использовать на веб-сайте, в противном случае вам нужно использовать

pdftohtml

в надежде, что макет останется прежним

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...