Очевидно, что это не простая задача, форматирование PDF намного богаче, чем форматирование HTML (плюс вы должны извлекать изображения и связывать их и т. Д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу в боковой панели вашего вопроса похожий вопрос: Преобразование PDF в HTML с Python , который указывает на библиотеку (poppler, который, по-видимому, написан на C ++, возможно, доступен с помощью JNI / JNA) и связанный вопрос, который предлагает еще больше ответов.