Я пытаюсь разобрать какой-то html, и у меня возникла проблема с этим небольшим html-кодом.
XML:
<div>
<p><span><a href="../url"></a></span></p>
<h3 class="header"><a href="../url">Other</a></h3>
<a href="../url">Other</a><br>
<a class="aaaaa" href="../url">Indice</a>
<p></p>
</div>
code:
import urllib
from lxml import etree
import StringIO
resultado=urllib.urlopen('trozo.html')
html = resultado.read()
parser= etree.HTMLParser()
tree=etree.parse(StringIO.StringIO(html),parser)
xpath='/div/h3'
html_filtrado=tree.xpath(xpath)
print html_filtrado
Когда я печатаю код, он появляется [], и я предполагаю, что это должен быть список с <h3 class="header"><a href="../url">Other</a></h3>
в нем.Если бы у меня был этот список, я бы выполнил etree.tostring (html_filtrado), чтобы увидеть <h3 class="header"><a href="../url">Other</a></h3>
.
Так как получить этот код?
<h3 class="header"><a href="../url">Other</a></h3>
Или только ../url
?какую часть я хочу !!
спасибо