В настоящее время я изучаю Python и пытаюсь сделать небольшой скребок, но у меня возникают проблемы с Beautiful Soup и regex.
Я пытаюсь сопоставить все ссылки на сайте, который имеет следующий HTML:
<td>
<a href="/l1234/Place+Number+1">Place Number 1 </a>
</td>
<td width="100">
California </td>
<td>
<a href="/l2342/Place+Number+2">Place Number 2 </a>
</td>
<td width="100">
Florida </td>
Я хочу получить все следующие ссылки: "/ lxxxx / Place + Number + x"
Я использую Python и Beautifulsoup для этого:
import BeautifulSoup
import urllib2
import re
address = 'http://www.example.com'
html = urllib2.urlopen(address).read()
soup = BeautifulSoup(html)
for tag in soup.findAll('a', id = re.compile('l[0-9]*')):
print tag['href']
Часть регулярного выражения в sou.find. Все, что я нашел в некотором примере кода, потому что я не могу заставить работать пример из документации BeautifulSoup. Без части регулярного выражения я получил все ссылки на странице, но я хочу только "lxxx"
Что я делаю не так с моим регулярным выражением? Может быть, есть способ сделать это без регулярных выражений, но я не могу найти способ.