Надеюсь, я не неправильно понял вопрос, но разве вы не можете использовать встроенные функции DOM для PHP, чтобы найти текст внутри тегов <a>
?
$doc = new DOMDocument();
$doc->loadHTMLFile("http://blahblah.com/blah.html");
$elem_list = $doc->getElementsByTagName("a");
foreach($elem_list as $elem)
echo $elem->textContent;
В этом случае я бы удалил все теги <a>
и их содержимое (например, с помощью регулярных выражений), а затем загрузил полученный HTML-код в выбранный вами DOM-анализатор.
Обновление : еще лучше, немедленно проанализируйте HTML и используйте встроенные функции, чтобы удалить теги <a>
, или переберите все теги и просто пропустите теги <a>
.Следует избегать регулярных выражений с HTML.