Есть ли лучший подход для анализа неверного HTML, чем применять к нему Tidy?
Примечание стороны: Бывают ситуации, когда Tidy недоступен. Регулярное выражение также не рекомендуется, я понял для анализа html.
Я бы попробовал что-то вроде этого: http://php.net/manual/en/domdocument.loadhtml.php
С этой страницы:
Функция анализирует HTML-код, содержащийся в источнике строки.В отличие от загрузки XML, HTML не обязательно должен быть правильно сформирован для загрузки .Эта функция также может вызываться статически для загрузки и создания объекта DOMDocument.
SimpleHTMLDOM , как известно, более снисходительно, чем встроенные функции PHP DOM.