проблемы навигации и перетаскивания страниц из браузера Python / Mechanize - PullRequest
0 голосов
/ 04 ноября 2010

Я создаю скребок для этого сайта. Индекс является многостраничным индексом. Чтобы перейти на вторую страницу, мне нужно нажать на кнопку «следующая страница» (две маленькие стрелки указывают влево на нижнюю часть страницы), которая является ссылкой javascript.

Функция, которую я создаю, должна добавить суп страницы, чтобы я мог разобрать ее позже. Он предназначен для рекурсии.

У меня есть механизированный браузер, определенный в самой программе, и я просто использую его.

Моя точная проблема в том, что я не могу получить суп из страниц два и три и так далее.

И это мой код. Большое спасибо за ваше время и помощь.

    def append_page(self, url, soup):
        m=soup.find('image',attrs={'id':'BTNNEXT'})
        if m :
           # Print HTTP headers.
           self.br.set_debug_http(True)
           response1 = self.br.follow_link(mechanize.Link(base_url = '', url = url, text = '', tag = '', attrs = [{'id':'BTNNEXT'}]))
           html=response1.read()
           soup2 = self.index_to_soup(html)
           self.append_page(url,soup2)
        texttag =soup.find('input',attrs={'name':'rsSearchRes_Count'})
        append = soup.texttag.findNext('tbody')

Ответы [ 2 ]

1 голос
/ 05 ноября 2010

Очевидно, ответ "вы не можете этого сделать", но ответы на этот вопрос могут помочь.

0 голосов
/ 06 апреля 2012

Я использовал селен . Если Firefox может сделать это, я тоже.

...