Ну, я попробовал некоторые библиотеки, исключительно для Linux, но вот мой промежуточный вывод.
PDFtoHTML слишком стар и не учитывает все новые спецификации PDF, например, PDF 1.7 (в основном потому, что он использует xpdf 2.02, в то время как xpdf уже находится в его 3-й версии)
Вместо PDFTOHTML я нашел Poppler , который продолжает разработку PDFtoHTML, а также несколько новых полезных утилит. На самом деле, в Open Source Poppler лучше всего отразил мой сложный PDF. Здесь один почти равный, который я должен использовать.
Наконец, вот что я собираюсь использовать. ImageMagick + Poppler. Я преобразую свой PDF в изображения и буду использовать вывод XML из Poppler из PDFtoHTML, чтобы добавить новый слой на мое изображение.