Суп хорош для вас:
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup('''<ul class="something">
... <li id="li_id">
... <a href="#" title="myurl">URL Text</a>
... </li>
... </ul>''')
Есть много аргументов, которые вы можете передать методу findAll
; больше здесь . Одна строка ниже поможет вам начать с возвращения списка всех ссылок, соответствующих некоторым условиям.
>>> soup.findAll(href='#', title='myurl')
[<a href="#" title="myurl">URL Text</a>]
Редактировать: на основе комментария ОП, добавлена информация:
Допустим, вас интересуют только теги в элементах списка определенного класса <li class="li_class">
. Вы можете сделать что-то вроде этого:
>>> soup = BeautifulSoup('''<li class="li_class">
<a href="#" title="myurl">URL Text</a>
<a href="#" title="myurl2">URL Text2</a></li><li class="foo">
<a href="#" title="myurl3">URL Text3</a></li>''') # just some sample html
>>> for elem in soup.findAll("li", "li_class"):
... pprint(elem.findAll('a')) # requires `from pprint import pprint`
...
[<a href="#" title="myurl">URL Text</a>,
<a href="#" title="myurl2">URL Text2</a>]
Рецепт супа:
- Загрузите один необходимый файл.
- Поместите файл dl'd в каталог site-packages или аналогичный.
- Наслаждайтесь своим супом.