Есть два подхода к PHP. Во-первых, очистите документ с помощью аккуратного расширения , чтобы он был действительным XHTML и, следовательно, правильно сформированным XML и, следовательно, мог быть проанализирован с помощью инструментов XML.
Вторым является использование PHP-версии парсера html5lib , который пытается внедрить исследование HTML5 в текущие процедуры синтаксического анализа браузера. Если он отображается в браузере, html5lib может его проанализировать.
Используя любой из этих подходов, вы получите объект DOM, к которому можно обращаться с помощью выражений xpath. Поскольку в ваших теоретических документах отсутствует семантическая структура, вы захотите взглянуть на части документа из мышления «5-й промежуток внутри 3-го р».
Дополнительная информация здесь (предупреждение о собственной ссылке).