Регулярное выражение для замены <a>на соответствующее <img> - PullRequest
0 голосов
/ 20 сентября 2009

Я ищу решение PHP preg_replace () для поиска ссылок на изображения и замены их соответствующими тегами изображений.

Найти:

<a href="http://www.domain.tld/any/valid/path/to/imagefile.ext">This will be ignored.</a>

Заменить на:

<img src="http://www.domain.tld/any/valid/path/to/imagefile.ext" alt="imagefile" />

Если протокол ДОЛЖЕН быть http://,, .ext ДОЛЖЕН быть действительным форматом изображения (.jpg, .jpeg, .gif, .png, .tif), а имя базового файла становится значением alt = "".

Я знаю, что preg_replace () - это правильная функция для работы, но я отстой с регулярным выражением, поэтому любая помощь очень ценится! СПАСИБО!

Ответы [ 3 ]

10 голосов
/ 20 сентября 2009

Поздравляем, вы - один миллионный клиент, который спрашивает Stack Overflow, как анализировать HTML с помощью регулярных выражений!

[X] [HT] ML не является обычным языком и не может быть надежно проанализирован с помощью регулярного выражения. Используйте анализатор HTML. Сам PHP дает вам DOMDocument , или вы можете предпочесть simplehtmldom .

Кстати, вы не можете определить тип файла, посмотрев его URL. Нет никаких причин, по которым JPEG должен иметь расширение «.jpeg», и, действительно, нет никакой гарантии, что файл с расширением «.jpeg» действительно будет JPEG. Единственный способ убедиться в этом - извлечь ресурс (например, используя запрос HEAD) и посмотреть заголовок Content-Type.

7 голосов
/ 20 сентября 2009

Ах, моя ежедневная практика DOM. Вы должны использовать DOM для разбора HTML и regex для разбора строк, таких как атрибуты html.

Примечание: у меня есть несколько базовых регулярных выражений, которые наверняка могут быть улучшены некоторыми волшебниками:)

Примечание # 2: Хотя это может потребовать дополнительных затрат, вы можете использовать что-то вроде curl, чтобы тщательно проверить, является ли href реальным изображением, отправив запрос HEAD и посмотрев на Content-Type, но это сработает в 80-90 % случаев.

<?php

$content = '

<a href="http://www.domain.tld/any/valid/path/to/imagefile.ext">This will be ignored.</a>
<br>

<a href="http://col.stb.s-msn.com/i/43/A4711309495C88F8CD154C99FCE.jpg">this will not be ignored</a>

<br>

<a href="http://col.stb.s-msn.com/i/A0/8E9A454F701E4F5F89E58E14B532C.jpg">bah</a>
';

$dom = new DOMDocument();
$dom->loadHTML($content);

$anchors = $dom->getElementsByTagName('a');

$i = $anchors->length-1;

$protocol = '/^http:\/\//';
$ext = '/([\w+]+)\.(?:gif|jpg|jpeg|png)$/';

if ( count($anchors->length) > 0 ) {
    while( $i > -1 ) {
    $anchor = $anchors->item($i);
    if ( $anchor->hasAttribute('href') ) {
        $link = $anchor->getAttribute('href');

        if ( 
        preg_match ( $protocol , $link ) &&
        preg_match ( $ext, $link )
        ) {
        //echo 'replacing this one.';
        $image = $dom->createElement('img');

        if ( preg_match( $ext, $link, $matches ) ) {
            if ( count($matches) ) {
            $altName = $matches[1];
            $image->setAttribute('alt', $altName);
            }
            $image->setAttribute('src', $link);
            $anchor->parentNode->replaceChild( $image, $anchor );
        }
        }

    }
    $i--;
    }
}

echo $dom->saveHTML();
1 голос
/ 15 ноября 2009

Я бы предложил использовать это более гибкое регулярное выражение без greddy:

<a[^>]+?href=\"(http:\/\/[^\"]+?\/([^\"]*?)\.(jpg|jpeg|png|gif))[^>]*?>[^<]*?<\/a>

И более сложное регулярное выражение (включая тестовый код PHP), который, надеюсь, порадует Гамбо:)

<?php
$test_data = <<<END
<a blabla="asldlsaj" alksjada="aslkdj" href="http://www.domain.tld/any/valid/path/to/imagefile.jpg" lkjasd=""asdlaskjd>This will be ignored.</a>
Lorem ipsum..
<a    blabla=asldlsaj alksjada="aslkdj" href="http://www.domain.tld/any/valid/path/to/imagefile.jpg" lkjasd=""asdlaskjd>This will be ignored.</a>
<a lkjafs='asdsa> ' blabla="asldlksjada=>"aslkdj" href="http://www.domain.tld/any/valid/path/to/imagefile.jpg" lkjasd=""asdlaskjd>This will be ignored.</a>
<a    blabla="ajada="aslk href="http://www.domain.tld/any/valid/path>/to/imagefile.jpg" lkjasd>asdlaskjd>This will be ignored.</a>
<a    blabla="asldlsaj>" aslkdj href="http://www.domain.tld/any/valid/path/ to/imagefile.jpg" lkjasd=""asdlaskjd>This will be ignored.</a>
Something:
<a    blabla='asldls<ajslkdj' href="http://www.domain.tld/any/valid'/path/to/imagefile.jpg" lkjasd=""asdlaskjd>This will be ignored.</a>
<a    blabla=  asldlsadj href="http://www.domain.tld/any/valid/path/to/imagefile.jpg" lkjasd>This will be ignored.</a>
<a blabla="asldlsaj" alksjslkdj" href='http://www.domain.tld/any/valid/path/to/imagefile.jpg' lkjasdskjd>This will be ignored.</a>
Something else...
<a    blabla="asldlsaj" alksjslkdj" href='http://www.domain.tld/any/valid/path/to/imagefile.jpg' lkjasdskjd>This will be ignored.</a>
<a    blabla="asldlsaj" alksjada="aslkdj" href=http://www.domain.tld/any/valid/path/to/imagefile.jpg lkjdlaskjdll> be ignored.</a>
END;
$regex = "/<a\s(\s*\w+(\s*=\s*(\".*?\"|'.*?'|[^'\">\s]+))?)+?\s+href\s*=\s*(\"(http:\/\/[^\"]+\/(.*?)\.(jpg|jpeg|png|gif))\"|'(http:\/\/[^']+\/(.*?)\.(jpg|jpeg|png|gif))'|(http:\/\/[^'\">\s]+\/([^'\">\s]+)\.(jpg|jpeg|png|gif)))\s(\s*\w+(\s*=\s*(\".*?\"|'.*?'|[^'\">\s]+))?)+>[^<]*?<\/a>/i";
$replaced = preg_replace($regex, '<img src="$5$8$11" alt="$6$9$12" />', $test_data);

echo '<pre>'.htmlentities($replaced);
?>
...