Ищите теги img и id, сохраняйте URL в переменной, если оба значения верны - PullRequest
0 голосов
/ 22 июля 2011

Я сейчас играю с каким-то Python и начинаю осваивать его.
Я уже придумал проект, но я не могу решить некоторые вещи.

Цель состоит в том, чтобы заглянуть внутрь определенного тега, такого как тег img или тег a.
Если это так, необходимо также искать тег id, всегда один и тот же.

Если изображениедубль выглядит как <img src="/overflow.png" id="true"> Я хочу, чтобы он был сохранен
Если img дубль выглядит как <img src="/overflow.png" id="false"> Я не хочу, чтобы он сохранялся.

Надеюсь, это довольно легко достичь, я просто не знаю 'пока не нашел решения.Я искал функцию для HTMLParser, но для меня это скорее бред, чем смысл.Надеюсь, кто-то знает, как это сделать, и помогите мне.Будем очень благодарны!

Приветствия,
ninjaboi21.

1 Ответ

2 голосов
/ 22 июля 2011

Люди обычно используют BeautifulSoup, http://www.crummy.com/software/BeautifulSoup/, для таких действий.

После установки:

from BeautifulSoup import BeautifulSoup
# if the file is on your computer use this
#file = open('/path/to/the/file')
# and if the file is on the internet use this
#import urllib
#file = urllib.urlopen('http://www.the.com/path/to/the/file')
html = file.read()
file.close()
soup = BeautifulSoup(html)
trueimages = [image for image in soup.findAll('img') if image['id'].lower() == 'true']

Редактировать: добавлено, как получить файл в строку.

...