Анализ HTML-страницы - PullRequest
       12

Анализ HTML-страницы

1 голос
/ 20 апреля 2011

У меня есть вопрос, касающийся анализа HTML-страниц.Например, есть страница www.example.com/page.html, которая содержит информацию в нужных мне таблицах, а www.example.com/page2.html содержит некоторую другую информацию, но в текстовом формате.В настоящее время я использую регулярное выражение (preg_match_all), в которое мне пришлось вставить шаблон, сделанный вручную.Есть ли более быстрый / лучший способ сделать это.Таким образом, полный вопрос заключается в следующем: есть ли быстрый / хороший способ извлечения информации из HTML-страницы, который не требует от меня использования и редактирования частей источника с помощью регулярных выражений?

(Другая информация: я использую PHP icw cURL для получения содержимого страницы, затем я использую preg_match_all для извлечения данных)

Ответы [ 3 ]

4 голосов
/ 20 апреля 2011

Да!Вы можете загрузить содержимое веб-страницы в PHP DOMDocument и извлечь данные, используя HTML-классы и идентификаторы, так же, как вы используете Javascript.

Вот документация http://www.php.net/manual/en/class.domdocument.php

Вы должны начатьотключите с помощью

DOMDocument::loadHTML($html);

Затем следуйте документации и ее примерам

2 голосов
/ 20 апреля 2011

Используйте любой из парсеров, предложенных в этом посте . Вы никогда не должны использовать регулярные выражения для анализа html.

1 голос
/ 20 апреля 2011

Вы можете использовать Дом .

...