Question

Я дошел до того, что у меня есть HTML, но я бы хотел извлечь из него только одну строку

В каждом файле HTML есть строка, которая выглядит следующим образом

<h4 class="ws-ds-name detail-title">DATA_I_WANT</h4>

И я не уверен, как использовать метод .find (), чтобы получить именно этот тег, а затем извлечь DATA_I_WANT

Любые предложения?

Спасибо

bernie · Answer 1 · 09 апреля 2011

from BeautifulSoup import BeautifulSoup as bs
markup = ''' some HTML here '''
soup = bs(markup)
soup.find('h4', {'class':'ws-ds-name detail-title'}).contents[0]
# result: 
# u'DATA_I_WANT'

Или вы можете использовать lxml:

from lxml.html import fromstring
doc = fromstring(markup)
doc.xpath('//h4[@class="ws-ds-name detail-title"]')[0].text
# result: 
# 'DATA_I_WANT'

Python и BeautifulSoup для разбора HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python и BeautifulSoup для разбора HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов