Question

я пытаюсь разобрать html, которого нет на моем сервере

    $dom = new DOMDocument();
    $dom->loadHTMLfile("http://www.some-site.org/page.aspx");      
    echo    $dom->getElementById('his_id')->item(0);

но php возвращает ошибку, похожую на ID his_id already defined in http://www.some-site.org/page.aspx, line: 33. Я думаю, это потому, что DOMDocument имеет дело с недействительным HTML. Итак, как я могу разобрать его, даже если он недействителен?

cletus · Answer 1 · 24 апреля 2010

Вы должны запустить HTML Tidy , чтобы очистить его перед анализом.

$html = file_get_contents('http://www.some-site.org/page.aspx');
$config = array(
  'clean' => 'yes',
  'output-html' => 'yes',
);
$tidy = tidy_parse_string($html, $config, 'utf8');
$tidy->cleanRepair();
$dom = new DOMDocument;
$dom->loadHTML($tidy);

См. Этот список опций .

Craig Francis · Answer 2 · 21 апреля 2011

Посмотрите на: libxml_use_internal_errors ()

http://php.net/libxml_use_internal_errors

Annika Backstrom · Answer 3 · 24 апреля 2010

Читая документы, я вижу $dom->strictErrorChecking, который по умолчанию равен TRUE. Что произойдет, если вы установите $dom->strictErrorChecking = false?

PHP разбирает недопустимый HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PHP разбирает недопустимый HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы