Я предлагаю вам использовать parse_url для получения частей URL-адресов!
Взгляните на php.net
РЕДАКТИРОВАТЬ:
$file = file_get_contents( YOUR FILE NAME );
$lines = explode("\r\n", $file);
foreach( $lines as $line ){
$urlParts = parse_url( $line );
if( $urlParts['scheme'] == 'http' ){
// Do anything ...
}
}
ИЗМЕНЕНИЕ:
Хорошо, я не знаю, какой у вас код! Если вы хотите очистить HTML, чтобы найти ссылки, я предлагаю это вам, он вернет вам href-значения тега:
preg_match_all ( "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is", $source, $regs );
for ( $x = 0; $x < count ( $regs [ 1 ] ); $x ++ ) {
$tmp_array [ "link_raw" ] = trim ( $regs [ 1 ] [ $x ] );
}
Затем используйте parse_url для проверки