Я создаю скребок для этого сайта. Индекс является многостраничным индексом. Чтобы перейти на вторую страницу, мне нужно нажать на кнопку «следующая страница» (две маленькие стрелки указывают влево на нижнюю часть страницы), которая является ссылкой javascript.
Функция, которую я создаю, должна добавить суп страницы, чтобы я мог разобрать ее позже. Он предназначен для рекурсии.
У меня есть механизированный браузер, определенный в самой программе, и я просто использую его.
Моя точная проблема в том, что я не могу получить суп из страниц два и три и так далее.
И это мой код. Большое спасибо за ваше время и помощь.
def append_page(self, url, soup):
m=soup.find('image',attrs={'id':'BTNNEXT'})
if m :
# Print HTTP headers.
self.br.set_debug_http(True)
response1 = self.br.follow_link(mechanize.Link(base_url = '', url = url, text = '', tag = '', attrs = [{'id':'BTNNEXT'}]))
html=response1.read()
soup2 = self.index_to_soup(html)
self.append_page(url,soup2)
texttag =soup.find('input',attrs={'name':'rsSearchRes_Count'})
append = soup.texttag.findNext('tbody')