Пожалуйста, посмотрите на этот код:
# -*- coding: utf-8 -*-
from lxml import etree
html_fragment = "<body><p>This is html, you can <a href='wikpedia'>learn more</a> on the wikipedia page</p></body>"
tree = etree.fromstring(html_fragment, etree.HTMLParser())
for x in tree.findall(".//p") :
print(x.text)
этот отпечаток:
This is html, you can
он обрезает текст перед тегом a
.как я могу получить весь текст тега p
?