HTML-парсер для PHP, как Java - PullRequest
3 голосов
/ 17 февраля 2010

Я занимаюсь разработкой программ на Java, которые анализируют исходный HTML-код веб-страниц с использованием различных HTML-анализаторов, таких как Jericho, NekoHtml и т. Д. *

Теперь я хочу разработать парсеры на языке PHP. Поэтому, прежде чем начать, я хочу знать, есть ли в наличии html-парсеры, которые я могу использовать с PHP для разбора html-кода

Ответы [ 3 ]

2 голосов
/ 17 февраля 2010

Проверить DOMDocument .

Пример # 1 Создание документа

<?php
$doc = new DOMDocument();
$doc->loadHTML("<html><body>Test<br></body></html>");
echo $doc->saveHTML();
2 голосов
/ 17 февраля 2010

Встроенный класс Парсер DOM делает очень хорошую работу.Есть также много других XML-парсеров .

1 голос
/ 17 февраля 2010

DOM довольно хорош для этого. Он также может работать с недопустимой разметкой, однако он генерирует недокументированные ошибки и исключения в случае несовершенной разметки, поэтому я предлагаю вам отфильтровать HTML с помощью HTMLPurifier или какой-либо другой библиотеки перед загрузкой его с помощью DOM.

...