Анализ исходного кода HTML для извлечения значения href тегов Anchor и Link - PullRequest
0 голосов
/ 22 марта 2011

Я ищу какой-то HTML-парсер в PHP, который может помочь мне извлечь href values из html-источника.

Я посмотрел на phpQuery и лучше, но это будет слишкомИзбыточное количество для моих нужд и из-за того, что много ЦП делает лишние ненужные мне вещи.

Я также проверил

$ dom = new DomDocument ();
$ dom-> loadHTML ($ html);

, но возникают проблемы с синтаксическим анализом тегов HTML5.

Есть ли лучший library/class или способ сделать это?

Ответы [ 3 ]

0 голосов
/ 22 марта 2011

simplehtmldom - удобный класс для разбора PHP HTML

http://simplehtmldom.sourceforge.net/

0 голосов
/ 28 мая 2014

Я использовал это - -

$html = '<a href="http://google.com"><img src="images/a.png" /></a>';
preg_match('/href="([^\s"]+)/', $html, $match);
echo '<pre>';
print_r($match);
0 голосов
/ 22 марта 2011

Ну, вы можете использовать регулярные выражения для извлечения данных:

$html = "This is some stuff right here. <a href='index.html'>Check this out!</a> <a href=herp.html>And this is another thing!</a> <a href=\"derp.html\">OH MY GOSH</a>";
preg_match_all('/href=[\'"]?([^\s\>\'"]*)[\'"\>]/', $html, $matches);
$hrefs = ($matches[1] ? $matches[1] : false);
print_r($hrefs);
...