Question

Я разрабатываю небольшой инструмент для очистки веб-страницы.Я использую Красивый суп .Я хотел бы получить идентификатор класса со страницы.HTML-код выглядит примерно так:

<span class='class_id' id='New_line'></span>

Как бы получить class_id?

wal-o-mat · Answer 1 · 19 ноября 2011

Этот ответ относится к более старой версии вопроса, где beautifulsoup не был упомянут

Вы можете использовать LXML и перебирать все элементы, запрашивая у них значение их "класс "атрибут.LXML - это библиотека для анализа XML-документов.

Как, например,

from lxml import etree
root = etree.parse(filename).getroot()

for span in root.iterdescendants("span"):
    cls = span.attrib.get("class")

luc · Answer 2 · 19 ноября 2011

Может ли вам помочь следующий пример?

>>> from BeautifulSoup import BeautifulSoup as B
>>> s = B("<span class='class_id' id='New_line'></span>")
>>> s.span.attrs
[(u'class', u'class_id'), (u'id', u'New_line')]

Как извлечь значение этого атрибута HTML-элемента с помощью Beautiful Soup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь значение этого атрибута HTML-элемента с помощью Beautiful Soup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы