Я пытался получить все заголовки статей на разных страницах сайта. Я заметил, что URL имеет формат 'http://www.shandong.gov.cn/col/col2267/index.html?uid=6820&pageNum=2'.
Я написал программу на Python для получения заголовков, она работала со страницей 1, но если я изменил URL на pageNum = 2 или другие числа, он все равно печатал заголовки со страницы 1.
Буду очень признателен за вашу помощь. Спасибо!
# -*- coding: utf-8 -*-
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import re
header = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
req = Request('http://www.shandong.gov.cn/col/col2267/index.html?uid=6820&pageNum=2',
headers={'User-Agent': header})
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage, "html.parser")
titles = soup.findAll('div', attrs={"class":"list_a5"})
str = ''
file = open('./titles.txt', 'w')
pattern1 = re.compile(r'blank">(.*?)</a')
for title in titles:
str = title.get_text()
result = re.findall(pattern1,str)
for word in result:
print(word)
file.write(word)
file.write('\n')
file.close()