Как использовать получить данные с помощью lxml - PullRequest
0 голосов
/ 16 сентября 2018

Я хотел бы очистить файл страницы:

<body class="body_class" style="background:#444;">
<div class="data" id="id">
<div id="images" style="cursor: auto;">
<img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1">
<p class="img_info">(1/14)</p>
</div>
</div>
</body>

Я хотел бы получить данные image1.jpg.

Я попробовал код

from lxml import html
import requests
page = requests.get(r'http://example.com')
tree = html.fromstring(page.content)
a = tree.xpath('//div[@id="images"]/src/text()')

Не удалось.Как получить данные?

Спасибо.

1 Ответ

0 голосов
/ 16 сентября 2018

Вы ищете текст "image1.jpg" в качестве данных?если так, то просто используйте этот xpath //div[@id="images"]//@src.

, и если вы хотите, чтобы изображение загружалось по адресу, указанному в src, вы можете использовать.

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")
...