Я пытаюсь проанализировать исходный код HTML с Python, используя BeautifulSoup.Мне нужно получить href определенных ссылок (теги <a>).Особенность, которую я вижу, состоит в том, что все эти ссылки включают target='testwindow' внутри своих тегов, поэтому, возможно, я поищу это.Как я могу получить эти ссылки?
href
<a>
target='testwindow'
Это мой тестовый образец.Мне нужно было бы получить только http://example.com:20213/testweb1.2/testapp?WSDL.
http://example.com:20213/testweb1.2/testapp?WSDL
<td id="link3"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL">?HELLO</a></td> <td id="link4"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL" target="testwindow">?WSDL</a></td>
Вы можете использовать BeautifulSoup.find:
BeautifulSoup.find
from bs4 import BeautifulSoup as soup content = '<td id="link4"><img src="images/spacer.gif" alt="" style="height:1px;" width="0" border="0"><a href="http://example.com:20213/testweb1.2/testapp?WSDL" target="testwindow">?WSDL</a></td>' d = soup(content, 'html.parser').find('a', {'target':'testwindow'})['href']
Выход:
'http://example.com:20213/testweb1.2/testapp?WSDL'