Я пытаюсь сделать пользовательский конвертер HTML в LaTeX, который использует сообщения Wordpress в качестве источника.
По сути, ему необходимо выполнить некоторую «замену», например:
<h2>H2 Title</h2>
<p>Text text text</p>
<img src="/image.png" alt="Image ALT tag" \>
К этому
\begin{document}
\section{H2 Title}
Text text text
\shorthandoff{=}
\begin{figure}[H]
\centering
\includegraphics[scale=0.7]{./img/image.png}
\caption{Image ALT tag}
\end{figure}
\shorthandon{=}
\end{document}
Какой подход я должен использовать? Существует ли анализатор HTML DOM , который допускает замены, подобные этому ? Или другие предложения?
Обновление: есть ли способ правильно пройти в дереве HTML DOM в PHP? Я пробовал RecursiveDOMIterator (http://stackoverflow.com/questions/4431142/loop-through-all-elements-of-body-tags-using-dom), но не могу получить успешный результат.
Спасибо.