Использование BeautifulSoup , например,
>>> from BeautifulSoup import BeautifulSoup as bs
>>> text = """<div>
... <table>
... <tbody>
... <tr>
... <td>stuff</td>
... </tr>
... <tr>
... <td>
... <div>The content I want</div>
... </td>
... </tr>
... </tbody>
... </table>
... </div>"""
>>> a = bs(text)
Поскольку все теги <tr>
имеют некоторый контент и вам нужны данные из строки second , вы не можете просто использовать a.text
, но нужно сделать что-то более сложное:
>>> a.table.tbody.findAll("tr")[1].div.text
u'The content I want'
Или, если на самом деле есть только один тег <div>
в строках таблицы (<tr>
), вы также можете просто просмотреть теги, например:
>>> a.table.tbody.div.text
u'The content I want'
Или вы можете использовать html-анализатор из lxml модуля следующим образом:
>>> from lxml import html
>>> t = html.fromstring(text)
>>> t.xpath("table/tbody/tr[2]/td/div")[0].text
'The content I want'