Пара примеров:
На этой странице обсуждается, как использовать программное обеспечение под названием pdftohtml для преобразования в Ubuntu.
На этой странице перечислены условно-бесплатные программы (возможно, Windows), которые преобразуют PDF в различные форматы MS, включая htm .
Я даже нашел пару видео (видео от Google и одно на www.break.com). Я не смотрел на них, потому что думаю, что они просто опишут, как использовать какое-то программное обеспечение.
Это явно неудовлетворительно, если вы хотите знать, как сделать это самостоятельно.
Я думаю, что PDF начинался как сжатый файл postscript, но в наши дни, вероятно, он будет содержать изображения (например, отсканированные документы).
Если это так, не беспокойтесь о поиске текста, вы можете извлечь изображения и создать HTML-страницы для отображения изображений. Это должно как минимум позволить вам сохранить форматирование.
По крайней мере, вы можете делать снимки экрана на страницах PDF для создания изображений. Грубо, я знаю, но это сработало бы, был ли PDF постскриптумом или изображениями.