Tidy - Как удалить дубликаты ID из HTML - PullRequest
3 голосов
/ 17 мая 2011

У меня есть HTML-код, который нужно проанализировать с помощью DOMDocument::loadHtml($html), но он выдает мне ошибку:

DOMDocument::loadHTML(): ID 'my id' already defined in Entity

Я не могу контролировать $html, но я могу использовать на нем tidy lib (или что-то еще, идеи?) и создать разбираемый HTML.Но я не нахожу опцию в конфигурации Tidy, чтобы удалить дубликаты ID в конфигурации Tidy.Мой код такой:

$tidy = new tidy();
$tidy->parseString($this->getPageContents());
$html = new DOMDocument();
$html->loadHTML($tidy); // error here

Thx

1 Ответ

0 голосов
/ 17 мая 2011

try

$html->loadXML($tidy);

, а затем переписать идентификаторы с использованием xml dom перед синтаксическим анализом как html dom

...