получить одинаковый вывод для разных URL, когда я очищаю с Python - PullRequest
0 голосов
/ 15 мая 2019

Я пытался получить все заголовки статей на разных страницах сайта. Я заметил, что URL имеет формат 'http://www.shandong.gov.cn/col/col2267/index.html?uid=6820&pageNum=2'. Я написал программу на Python для получения заголовков, она работала со страницей 1, но если я изменил URL на pageNum = 2 или другие числа, он все равно печатал заголовки со страницы 1. Буду очень признателен за вашу помощь. Спасибо!

# -*- coding: utf-8 -*-
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import re
header = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
req = Request('http://www.shandong.gov.cn/col/col2267/index.html?uid=6820&pageNum=2',
              headers={'User-Agent': header})

webpage = urlopen(req).read()
soup = BeautifulSoup(webpage, "html.parser")
titles = soup.findAll('div', attrs={"class":"list_a5"})
str = ''
file = open('./titles.txt', 'w')
pattern1 = re.compile(r'blank">(.*?)</a')
for title in titles:
    str = title.get_text()
    result = re.findall(pattern1,str)
    for word in result:
        print(word)
        file.write(word)
        file.write('\n')
file.close()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...