Преобразование HTML в другой синтаксис (LaTeX) с помощью PHP - PullRequest
1 голос
/ 06 февраля 2011

Я пытаюсь сделать пользовательский конвертер HTML в LaTeX, который использует сообщения Wordpress в качестве источника.

По сути, ему необходимо выполнить некоторую «замену», например:

<h2>H2 Title</h2>
<p>Text text text</p>
<img src="/image.png" alt="Image ALT tag" \>

К этому

   \begin{document}

   \section{H2 Title}

   Text text text

   \shorthandoff{=}
   \begin{figure}[H]
   \centering
   \includegraphics[scale=0.7]{./img/image.png}
   \caption{Image ALT tag}
   \end{figure}
   \shorthandon{=}

   \end{document}

Какой подход я должен использовать? Существует ли анализатор HTML DOM , который допускает замены, подобные этому ? Или другие предложения?

Обновление: есть ли способ правильно пройти в дереве HTML DOM в PHP? Я пробовал RecursiveDOMIterator (http://stackoverflow.com/questions/4431142/loop-through-all-elements-of-body-tags-using-dom), но не могу получить успешный результат.

Спасибо.

Ответы [ 2 ]

1 голос
/ 06 февраля 2011

Вы пробовали PHP Простой HTML DOM Parser ? В частности, «Как пройти через дерево DOM?» раздел руководство может быть то, что вы ищете.

0 голосов
/ 07 февраля 2011

В зависимости от сложности структуры HTML в ваших публикациях, вы можете использовать замены на основе регулярных выражений (если разметка довольно простая, как в вашем примере).Если вы хотите скопировать сложные структуры (вложенные элементы) в LaTeX, то, скорее всего, регулярное выражение не сработает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...