Найдите с помощью регулярного выражения и получите значение из тега img, который является членом другого тега - PullRequest
0 голосов
/ 28 мая 2020

У меня есть код с веб-сайта, где я хотел бы найти и получить путь к изображению, я имею в виду значение из src в теге img. Суть проблемы - пути к изображениям между тегами: wphimage и с расширениями .jpg.

Ниже кода:

<p>
    <wphimage data="{'Copyright':'John Smith','Alignment':'left','ImageVersion':'conductorportraitlong'}">
    <span style="display:block; float:left;" class="DIV_imageWrapper">
        <a data-lightview-title="John Smith"  class="lightview" href="//path/to/image/web.jpg"">
            <img src="//path/to/image/web.jpg" alt="Name">
        </a>
        <a class="A_copyright" href="javascript:;">©&nbsp; <span>Terry Linke</span></a>
        <a href="javascript:;">≡ <span>John Smith</span></a>| 
        <a class="A_zoom lightview" href="//path/to/image/web.jpg" data-lightview-title="Dietfried Gürtler" data-lightview-caption="Terry Linke">+ </a>
    </span>
    </wphimage>

    Text here...
</p>

Я пробовал с:

wphimage = re.findall(r'\S+\.jpg', text)

, но я получил и другие значения, из разных тегов, а затем <img>.

1 Ответ

0 голосов
/ 28 мая 2020

Вы можете попробовать

wphimage = re.findall(r'<img.*src=\"(\S*|\w*)\"', txt)

output

['//path/to/image/web.jpg']

Это регулярное выражение получает любые непробельные символы и любые символы слова, которые находятся между "" в теге img sr c value .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...