Beautifulsoup соскоб книги каталог - PullRequest
0 голосов
/ 01 ноября 2011
for i in range(1,1000000):

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
    soup = BeautifulSoup(page) #retreive

    books = soup.findAll("div",{"id":"Title"}) #process

Мне нужно пролистать весь каталог для издателя. Мне нужно получить:

  • Книжное изображение
  • Название
  • Edition
  • Издатель
  • PubDate
  • PriceCurrency
  • ISBN13
  • Описание (на вкладке ajax)

1 Ответ

0 голосов
/ 03 ноября 2011

используйте XPath для извлечения контента из этих мест

...