У меня есть исходный код веб-страницы, хранящийся в $ page, и мне нужно извлечь из него все URL
проблема в том, что некоторые URL-адреса находятся не в теге <a>
, а в кодах javascript.
например, у меня есть этот исходный код, который я хочу извлечь из URL
Click <a style="vertical-align:middle;cursor:pointer;text-decoration:underline;color:red;" onClick="return downme('http://www.AAAAA.com/atnbc1i7b/part1.html')">
Here</a> to go to download page
<a href="http://www.UUUU.com/register">Hi all</a>
, и я использую этот код регулярного выражения
$regexp = "<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>";
if(preg_match_all("/$regexp/siU", $page, $matches, PREG_SET_ORDER))
{
foreach($matches as $match)
{
print_r($match)
}
}
, вывод будет напечатанмне просто
http://www.UUUU.com/register
но другая ссылка
http://www.AAAAA.com/atnbc1i7b/part1.htm
не появится !!
Помогите пожалуйста
спасибо