Разбор HTML с lxml на Python - PullRequest
       15

Разбор HTML с lxml на Python

0 голосов
/ 15 октября 2011

У меня следующий HTML-код:

<div class="test">
    "Test"
    <br>
    <script type="text/javascript"></script>
    <a href="mailto:asdf@adsf.com">asdf@adsf.com</a> 
    " "
</div>

Как получить адрес электронной почты из этого кода с помощью lxml?

1 Ответ

4 голосов
/ 15 октября 2011
import lxml.html as LH
text='''\
<div class="test">
    "Test"
    <br>
    <script type="text/javascript"></script>
    <a href="mailto:asdf@adsf.com">asdf@adsf.com</a> 
    " "
</div>
'''

doc=LH.fromstring(text)
print(doc.xpath('//a[starts-with(@href,"mailto:")]/text()')[0])
# asdf@adsf.com
...