libcurl - ваш друг + приборка (HTML приборка), если вы исправили неисправный HTML.
Редактировать: Вот полная последовательность
HTML (в файле) -> приборка(который очистит искаженный HTML) -> XSLT-преобразование (вам понадобится XSL-файл для перевода HTML-кода в латекс) и используйте libxml / libxsl (http://xmlsoft.org/) -> latex-документ затем обрабатывается с использованием latexответив на команду latex) или, если хотите, вы можете скачать исходный код для lyx и посмотреть, как они это делают (http://www.lyx.org/). К сожалению, последовательность слишком сложна, чтобы написать ее в одном примере, все, что я могу вам дать, этопоследовательность ...