Я очищаю HTML-документ, используя lxml.html
; есть одна вещь, которую я могу сделать в BeautifulSoup
, но мне не удается сделать это с lxml.htm. Вот оно:
from BeautifulSoup import BeautifulSoup
import re
doc = ['<html>',
'<h2> some text </h2>',
'<p> some more text </p>',
'<table> <tr> <td> A table</td> </tr> </table>',
'<h2> some special text </h2>',
'<p> some more text </p>',
'<table> <tr> <td> The table I want </td> </tr> </table>',
'</html>']
soup = BeautifulSoup(''.join(doc))
print soup.find(text=re.compile("special")).findNext('table')
Я пробовал это с cssselect
, но безуспешно. Любые идеи о том, как я мог бы найти это с помощью методов в lxml.html
?
Большое спасибо,
D