Как извлечь значение этого атрибута HTML-элемента с помощью Beautiful Soup? - PullRequest
2 голосов
/ 19 ноября 2011

Я разрабатываю небольшой инструмент для очистки веб-страницы.Я использую Красивый суп .Я хотел бы получить идентификатор класса со страницы.HTML-код выглядит примерно так:

<span class='class_id' id='New_line'></span>

Как бы получить class_id?

Ответы [ 2 ]

4 голосов
/ 19 ноября 2011

Этот ответ относится к более старой версии вопроса, где beautifulsoup не был упомянут

Вы можете использовать LXML и перебирать все элементы, запрашивая у них значение их "класс "атрибут.LXML - это библиотека для анализа XML-документов.

Как, например,

from lxml import etree
root = etree.parse(filename).getroot()

for span in root.iterdescendants("span"):
    cls = span.attrib.get("class")
3 голосов
/ 19 ноября 2011

Может ли вам помочь следующий пример?

>>> from BeautifulSoup import BeautifulSoup as B
>>> s = B("<span class='class_id' id='New_line'></span>")
>>> s.span.attrs
[(u'class', u'class_id'), (u'id', u'New_line')]
...