Лучший способ разобрать неверный HTML в PHP - PullRequest
14 голосов
/ 31 августа 2010

Есть ли лучший подход для анализа неверного HTML, чем применять к нему Tidy?

Примечание стороны: Бывают ситуации, когда Tidy недоступен. Регулярное выражение также не рекомендуется, я понял для анализа html.

Ответы [ 2 ]

6 голосов
/ 31 августа 2010

Я бы попробовал что-то вроде этого: http://php.net/manual/en/domdocument.loadhtml.php

С этой страницы:

Функция анализирует HTML-код, содержащийся в источнике строки.В отличие от загрузки XML, HTML не обязательно должен быть правильно сформирован для загрузки .Эта функция также может вызываться статически для загрузки и создания объекта DOMDocument.

1 голос
/ 31 августа 2010

SimpleHTMLDOM , как известно, более снисходительно, чем встроенные функции PHP DOM.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...