Так как вы имеете дело с одним хостом. поэтому вы должны сначала поддерживать объект session
, чтобы избежать блокировки или пометки почти на всех брандмауэрах сайтов как DDOS-Attack
, где вы фактически поддерживаете тот же поток сокета TCP
, не открывая / закрывая / повторно открывая сокет .
После этого вы можете l oop поверх желаемого параметра разбиения на страницы и извлечь заголовок.
Ниже приведен пример для этого.
import requests
from bs4 import BeautifulSoup
def main(url):
with requests.Session() as req:
for page in range(1, 11):
r = req.get(url.format(page))
soup = BeautifulSoup(r.content, 'html.parser')
print(soup.title.text)
main("https://www.example.com/page={}")