Question

Мне бы хотелось одно или несколько регулярных выражений, которые могут:

1) Возьмите HTML-код большой страницы.

2) Найдите URL-адреса, содержащиеся во всех ссылках, например:

<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>

И так далее, он должен извлечь URL, содержащийся в атрибуте 'href', независимо от того, что находится до или после href

3) Извлеките якорный текст из всех ссылок, например, в приведенных выше примерах он должен вернуть 'http://example1.com' и текст привязки' Test 1 ', затем' http://example2.com' и 'Test 2' и т. Д. .

jayzantel · Answer 1 · 09 декабря 2013

<?php
$regexp = "<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>";
if(preg_match_all("/$regexp/siU", $html, $matches, PREG_SET_ORDER))
{ foreach($matches as $match)
{// $match[2] = link address
// $match[3] = link text}
}
?>

Это извлечет как ссылку, так и текст привязки.

Sergi · Answer 2 · 07 января 2011

Вам нужно взглянуть на , посмотреть в будущее и оглянуться назад .

<?php

$string = '<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>';

if(preg_match_all("|<a.*(?=href=\"([^\"]*)\")[^>]*>([^<]*)</a>|i", $string, $matches))
        {
        /*** if we find the word white, not followed by house ***/
        echo 'Found a match';
        print_r($matches);
    }
else
        {
        /*** if no match is found ***/
        echo 'No match found';
        }
?>

Diablo · Answer 3 · 07 января 2011

Попробуйте что-то вроде этого:

//not tested
$regex_pattern = "/<a href=\"(.*)\">(.*)<\/a>/";

d7samurai · Answer 4 · 14 ноября 2013

Что касается использования RegEx для извлечения ссылок из HTML, этот чертовски надежен:

Вот тот, который извлекает весь «простой» текст (то есть содержимое внетеги) из документов HTML:

(<(?<tag>script|style)[\s\S]*?</\k<tag>>)||<[\s\S]*?>|(?<text>[^<>]*)

Проверьте их здесь: http://www.martinwardener.com/regex

Regexp для извлечения всех ссылок и якорных текстов из HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Regexp для извлечения всех ссылок и якорных текстов из HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы