Учитывая ссылку HTML, как
<a href="urltxt" class="someclass" close="true">texttxt</a>
как я могу изолировать URL и текст?
Обновление
Я пользуюсь Beautiful Soup и не могу понять, как это сделать.
Я сделал
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
я получаю
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
Почему я пропускаю контент?
редактировать: уточнено «застрял» в соответствии с рекомендациями:)