У меня есть исходный код HTML, и я должен получить некоторый информационный текст в HTML. Я не могу использовать DOM, потому что документ не правильно сформирован.
Возможно, источник мог бы измениться позже, я не могу знать об этой ситуации. Таким образом, решение этой проблемы должно быть целесообразным для большинства ситуаций.
Я получаю источник с помощью curl, и я буду редактировать его с помощью функции preg_match_all и регулярных выражений.
Источник:
...
<TR Class="Head1">
<TD width="15%"><font size="12">Name</font></TD>
<TD>: </TD>
<TD align="center"><font color="red">Alex</font></TD>
<TD width="25%"><b>Job</b></TD>
<TD>: </B></TD>
<TD align="center" width="25%"><font color="red">Doctor</font></TD>
</TR>
...
...
<TR Class="Head2">
<TD width="15%" align="left">Age</B></TD>
<TD>: </TD>
<TD align="center"><font color="red">32</font></TD>
<TD width="15%"><font size="10">data</TD></font>
<TD> </B></TD>
<TD width="40%"> </TD>
</TR>
...
Как мы видели, источник плохо сформирован. На самом деле, ужасно! Но я ничего не могу сделать.
Источник длиннее этого.
Как я могу получить данные из источника? Я могу удалить все HTML-коды, но как узнать последовательность данных? Что я могу сделать с preg_match_all и regex? Что еще я могу сделать?
Я жду вашей помощи.