Предположим, у меня есть этот простой html:
<html>
<body>
<!--[if !mso]><!-->
<a href="http://link1.com">Link 1</a>
<!--<![endif]-->
<!--[if mso]>
<a href="http://link2.com">Link 2</a>
<![endif]-->
</body>
</html>
Есть ли способ использовать lxml.html
или BeautifulSoup
для получения обеих ссылок? Сейчас у меня только один. Другими словами, я хочу, чтобы синтаксический анализатор также изучал условные комментарии html (не уверен, что это за технический термин).
l xml. html
>>> from lxml import html
>>> doc = html.fromstring(s)
>>> list(doc.iterlinks())
<<< [(<Element a at 0x10f7f7bf0>, 'href', 'http://link1.com', 0)]
BeautifulSoup
>>> from BeautifulSoup import BeautifulSoup
>>> b = BeautifulSoup(s)
>>> b.findAll('a')
<<< [<a href="http://link1.com">Link 1</a>]