Пытаясь наскрести на следующую веб-страницу - PullRequest
0 голосов
/ 02 апреля 2019

Это код, который у меня есть до сих пор

for page in range(1, 5):
    guitarPage 
   =requests.get('https://www.guitarguitar.co.uk/guitars/electric/page-'.format(page)).text
    soup = BeautifulSoup(guitarPage, 'lxml')
    # row = soup.find(class_='row products flex-row')
    guitars = soup.find_all(class_='col-xs-6 col-sm-4 col-md-4 col-lg-3')

Это реальный цикл для итерации по продуктам

    for guitar in guitars:
        title_text = guitar.h3.text.strip()
        print('Guitar Name: ', title_text)
        price = guitar.find(class_='price bold small').text.strip()
        print('Guitar Price: ', price)
        time.sleep(0.5)

Код только пока, проходит через тот жестраница, не переходя на следующую страницу.Структура URL-адреса веб-сайта работает примерно на странице-2, странице-3 ++ и так далее.

1 Ответ

0 голосов
/ 02 апреля 2019

Вы должны добавить {} к своей ссылке.Я добавил также модуль времени.

      import requests
      from bs4 import BeautifulSoup
      import time

      for page in range(1, 5):
          guitarPage = requests.get('https://www.guitarguitar.co.uk/guitars/electric/page-{}'.format(page)).text
          soup = BeautifulSoup(guitarPage, 'lxml')
          # row = soup.find(class_='row products flex-row')
          guitars = soup.find_all(class_='col-xs-6 col-sm-4 col-md-4 col-lg-3')
          for guitar in guitars:
              title_text = guitar.h3.text.strip()
              price = guitar.find(class_='price bold small').text.strip()
              print('Guitar Name: ', title_text, 'Guitar Price: ', price)
              time.sleep(0.5)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...