Преобразование страницы PDF в файл HTML - это почти то же самое, что и «разбор ее в <div>
». Если вы уже нашли инструмент, который может сделать это за вас («PDFtoHTML»), просто используйте его и удалите все, кроме того, что находится внутри <body>
.html, который он выводит.