Regex PHP, сопоставить все ссылки с конкретным текстом - PullRequest
3 голосов
/ 02 ноября 2009

Я ищу регулярное выражение в PHP, которое сопоставило бы привязку с определенным текстом на нем. Например, я хотел бы получить якоря с текстом mylink, например:

<a href="blabla" ... >mylink</a>

Таким образом, он должен соответствовать всем якорям, но только если они содержат определенный текст. Поэтому он должен соответствовать следующим строкам:

<a href="blabla" ... >mylink</a>

<a href="blabla" ... >blabla mylink</a>

<a href="blabla" ... >mylink bla bla</a>

<a href="blabla" ... >bla bla mylink bla bla</a>

но не этот:

<a href="blabla" ... >bla bla bla bla</a>

Потому что этот не содержит слово mylink.

Также этот не должен совпадать: "mylink is string", потому что это не якорь.

У кого-нибудь есть идея?

Спасибо Гранит

Ответы [ 4 ]

9 голосов
/ 02 ноября 2009

Попробуйте вместо парсера:

require_once "simple_html_dom.php";

$data = 'Hi, I am looking for a regular expression in PHP which would match the anchor with a 
specific text on it. E.g I would like to get anchors with text mylink like: 
<a href="blabla" ... >mylink</a>

So it should match all anchors but only if they contain specific text So it should match t
hese string:

<a href="blabla" ... >mylink</a>

<a href="blabla" ... >blabla mylink</a>

<a href="blabla" ... >mylink bla bla</a>

<a href="blabla" ... >bla bla mylink bla bla</a>

but not this one:

<a href="blabla" ... >bla bla bla bla</a> Because this one does not contain word mylink.

Also this one should not match: "mylink is string" because it is not an anchor.

Anybody any Idea? Thanx Granit';

$html = str_get_html($data);

foreach($html->find('a') as $element) {
  if(strpos($element->innertext, 'mylink') === false) {
    echo 'Ignored: ' . $element->innertext . "\n";
  } else {
    echo 'Matched: ' . $element->innertext . "\n";
  }
}

, который производит вывод:

Matched: mylink
Matched: mylink
Matched: blabla mylink
Matched: mylink bla bla
Matched: bla bla mylink bla bla
Ignored: bla bla bla bla

Скачать simple_html_dom.php из: http://simplehtmldom.sourceforge.net/

1 голос
/ 02 ноября 2009

Это должно сработать (создайте строку регулярного выражения и вставьте любую нужную строку вместо «mylink»)

<\s*a\s+[^>]*>[^<>]*mylink[^<>]*<\s*\/a\s*>

Но это не рекомендуется. Вместо этого вы должны использовать анализатор HTML и обработать тег. Regex не совсем подходящий инструмент для этого. (Вышеупомянутое регулярное выражение не будет работать, если у вас есть ссылки, содержащие «>», хотя это может быть редко)

Полагаю, php не требует никаких специальных escape-символов, если вы просто используете соответствующий переход.

Проверено на regexpal.com

Несколько заметок ::
\ s * - для сопоставления необязательных пробелов
\ s + - чтобы соответствовать как минимум одному пробелу / табуляции и дополнительным пробелам
[^>] - соответствует любому символу, кроме '>'
[^ <>] - соответствует любому символу, кроме '<' или '>'

ОБНОВЛЕНИЕ: экранирование "/" для сопоставления php с m / regex /

0 голосов
/ 02 ноября 2009
/<a[^>]*>([^<]*mylink[^<]*)<\/a>/

Это немного упрощенно, так как оно сломается, если теги находятся внутри ссылки (<a href="/xyz">xyz <i>mylink</i> aaa</a>), но это должно работать.

0 голосов
/ 02 ноября 2009
if (preg_match('%<\s*a\s+href="blabla"[^>]*>(.*mylink.*)<\s*/a>%', $text, $regs)) {
    $result = $regs[1];
} else {
    $result = "";
}

$regs[0] проведет полный матч $regs[1] будет содержать бит внутри тега

...