РЕДАКТИРОВАТЬ: Я, кажется, прочитал вопрос в обратном направлении. В этом случае лучше всего проанализировать PDF-файл, а затем отформатировать HTML-код в зависимости от того, что вы найдете. Я полагаю, что опция javapdf способна на это, но я не использовал ни одного из них, поэтому я не уверен. Если хуже становится хуже, и вы не можете найти программное обеспечение для дизассемблирования PDF, вы можете написать свой собственный дизассемблер на Java или PHP, прочитав спецификацию PDF. Желаем удачи!
http://www.adobe.com/devnet/pdf/pdf_reference.html - спецификация PDF (модифицированная версия Adobe, поскольку они наиболее популярны, возможно, вы захотите поддерживать их расширения)
- СТАРЫЙ - Эти веб-сайты, вероятно, пишут свое собственное программное обеспечение для решения этой задачи. Если вы действительно заинтересованы в этом начинании, я бы предложил проанализировать HTML-код, чтобы получить данные и информацию о стиле, и использовать его для форматирования каких-либо API-интерфейсов для записи PDF. Быстрый поиск в Google дает следующее: - END OLD -
http://www.cutepdf.com/Solutions/
http://ruby -pdf.rubyforge.org / PDF-автор / документ / index.html
http://asprise.com/product/javapdf/