Получить конкретные ссылки с целью в Python BeautifulSoup - PullRequest
0 голосов
/ 05 октября 2018

Я пытаюсь проанализировать исходный код HTML с Python, используя BeautifulSoup.Мне нужно получить href определенных ссылок (теги <a>).Особенность, которую я вижу, состоит в том, что все эти ссылки включают target='testwindow' внутри своих тегов, поэтому, возможно, я поищу это.Как я могу получить эти ссылки?

Это мой тестовый образец.Мне нужно было бы получить только http://example.com:20213/testweb1.2/testapp?WSDL.

<td id="link3"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL">?HELLO</a></td>
<td id="link4"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL" target="testwindow">?WSDL</a></td>

1 Ответ

0 голосов
/ 05 октября 2018

Вы можете использовать BeautifulSoup.find:

from bs4 import BeautifulSoup as soup
content = '<td id="link4"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL" target="testwindow">?WSDL</a></td>'
d = soup(content, 'html.parser').find('a', {'target':'testwindow'})['href']

Выход:

'http://example.com:20213/testweb1.2/testapp?WSDL'
...