PHP Simple HTML DOM Parser не обрабатывает некорректный HTML - застрял в первой пробной - PullRequest
4 голосов
/ 05 декабря 2010

Я пытаюсь выбрать класс или идентификатор с помощью PHP Simple HTML DOM Parser, но безуспешно.

Мой пример очень прост и, кажется, соответствует примерам, приведенным в руководстве
(simplehtmldom.sourceforge AT net / manual.htm), но он просто не будет работать,
он заставляет меняwall.
Другие примеры сценариев с простым dom работают нормально.

См. пример: текст ссылки Это самый простой пример, который я нашел ... Как его проанализировать?

Если я сделаю это с Perl - пример HTML-страницы является недопустимым HTML.
Я не знаю, способен ли Simple HTML DOM Parser обрабатывать плохо искаженный HTML
(возможно, нет).

Хорошо: если я не могу запустить его, я могу попробовать некоторые парсеры Perl, например HTML::TreeBuilder::XPath

1 Ответ

4 голосов
/ 05 декабря 2010

Используйте Tidy для очистки искаженного HTML перед его анализом с использованием анализатора PHP DOM.

http://www.php.net/manual/en/tidy.examples.basic.php

...