Python не может получить ссылки с веб-страницы - PullRequest
1 голос
/ 02 апреля 2012

Я пишу скрипт на Python, который получает ссылки с сайта.Но когда я попробовал с этой веб-страницей , я не смог получить ссылки.Мой сценарий:

soup = BeautifulSoup(urllib2.urlopen(url))

datas = soup.findAll('div', attrs={'class':'tsrImg'})
for data in datas:
    link = data.find('a')
    print str(link.href)

он печатает только None, кто-нибудь может объяснить, почему это так ???

1 Ответ

5 голосов
/ 02 апреля 2012

Изменение:

str(link.href)

С:

link.get('href')

Это будет выглядеть так:

from BeautifulSoup import BeautifulSoup
import urllib2

url = 'http://www.meinpaket.de/de/shopsList.html?page=1'
soup = BeautifulSoup(urllib2.urlopen(url))
datas = soup.findAll('div', {'class':'tsrImg'})
for data in datas:
    link = data.find('a')
    print link.get('href')

Выходы:

/de/~-office-partner-gmbh-;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~-24selling-de;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~abalisi-kuenstlerbedarf-shop;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~abcmeineverpackung-de-kg;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~ability;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~ac-foto-handels-gmbh;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~ac-sat-corner-inh-dirk-hahn;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~adamo-fashion-gmbh-shop;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~adapter-markt;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
/de/~adko;jsessionid=11957F27FC2D888A34532D9848C922FB.as03
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...