Извлечение определенных <a href> URL-адресов из документа - PullRequest
0 голосов
/ 20 июля 2010

Я думаю, что это должно быть элементарно, но я все еще не могу разобраться с этим.Допустим, есть достаточное количество документов HTML, и мне нужно извлечь из них URL-адреса всех изображений.

Остальная часть содержимого изменяется, но база URL-адреса всегда одинакова, например: http://images.examplesite.com/images/,

Итак, я хочу извлечь каждую строку, содержащую эту часть.проблема в том, что они всегда смешиваются с тегами <a href=''> или <img src=''>, так как я могу их исключить?preg_match вероятно?

Ответы [ 2 ]

1 голос
/ 20 июля 2010

Попробуйте что-то вроде: preg_match_all('/http:\/\/images\.examplesite\.com\/images\/(.*?)"/i', $html_data, $results, PREG_SET_ORDER)

0 голосов
/ 20 июля 2010

Вы можете использовать html dom parser

или использовать регулярное выражение.

  preg_match_all("/http:\/\/images.examplesite.com\/images\/(.*?)\"/s", $str, $preg);
  print_r($preg);
...