Разбор HTML-страницы в PHP - PullRequest
       25

Разбор HTML-страницы в PHP

3 голосов
/ 06 апреля 2011

Сегодня, когда я анализировал одну страницу с помощью простого HTML DOM-парсера, я не получил никакого результата. Поэтому я подумал, что это должно быть странно. Поэтому я пошел посмотреть HTML-код, написанный там. Я обнаружил, что есть много ошибок.

Итак, возникает вопрос. Что делать в состоянии, когда парсер работает корректно, но HTML это беспорядок. Может быть, кто-то посоветует какой-нибудь подход или какой-то другой парсер, способный справиться с этим,

Спасибо всем за помощь.

Ответы [ 2 ]

2 голосов
/ 06 апреля 2011

Запустите его через приборку, прежде чем загружать его в дерево DOM, http://php.net/manual/en/book.tidy.php

0 голосов
/ 06 апреля 2011

Похоже, что встроенные в php вещи должны хорошо работать для HTML, который не так хорошо написан. Прочитайте в комментариях, поскольку у некоторых людей есть информация об этом.

http://docs.php.net/manual/en/domdocument.loadhtml.php

...