Разбор Python: lxml, чтобы получить только часть текста тега - PullRequest
0 голосов
/ 21 июля 2010

Я работаю в Python с HTML, который выглядит следующим образом. Я разбираюсь с lxml, но с таким же успехом могу использовать pyquery:

<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>

Вытащить «Имя» и «Адрес» очень легко, какую бы библиотеку я ни использовал, но как мне получить оставшуюся часть текста - то есть «Дейв Дэвис»?

Ответы [ 3 ]

2 голосов
/ 21 июля 2010

Другой способ - использование xpath:

>>> from lxml import html
>>> doc = html.parse( file )
>>> doc.xpath( '//span[@class="Title"][text()="Name"]/../self::p/text()' )
['Dave Davies']
>>> doc.xpath( '//span[@class="Title"][text()="Address"]/../self::p/text()' )
['123 Greyfriars Road, London']
1 голос
/ 21 июля 2010

Каждый элемент может иметь текст и атрибут хвоста (в ссылке ищите слово «хвост»):

import lxml.etree

content='''\
<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>'''


root=lxml.etree.fromstring(content,parser=lxml.etree.HTMLParser())
for elt in root.findall('**/span'):
    print(elt.text, elt.tail)

# ('Name', 'Dave Davies')
# ('Address', '123 Greyfriars Road, London')
0 голосов
/ 21 июля 2010

Посмотрите на BeautifulSoup .Я только начал использовать его, поэтому я не эксперт.С макушки головы:

import BeautifulSoup

text = '''<p><span class="Title">Name</span>Dave Davies</p>
          <p><span class="Title">Address</span>123 Greyfriars Road, London</p>'''

soup = BeautifulSoup.BeautifulSoup(text)

paras = soup.findAll('p')

for para in paras:
    spantext = para.span.text
    othertext = para.span.nextSibling
    print spantext, othertext

[Out]: Name Dave Davies
       Address 123 Greyfriars Road, London
...