Я использую lxml.html для анализа некоторого hmtl для получения ссылок, однако, когда он попадает на ссылку, содержащую изображение, он просто возвращает пустое значение, то, что он действительно хотел бы, - это уметь обнаруживать изображение или затем попытайтесь вернуть изображение и текст.
Так это выглядит так ...
from lxml.html import parse, fromstring
doc = fromstring('<a href="Link One">Anchor Link One</a><br /><a href="Link Two"<img src="Image Link Two" alt="Alt Image" /></a><br /><a href="Link Three">Anchor Link Three</a><br />')
for link in doc.cssselect('a'):
print '%s: %s' % (link.text_content(), link.get('href'))
результат
Anchor Link One: Link One
: Link Two
Anchor Link Three: Link Three
Поэтому я попытался с помощью .html_content () попытаться получить необработанный html, а затем проверить, было ли это изображение.
Хм .. Как обнаружить, если завернутый в изображение, и / или вытащить туда html ....