Выскабливание следующей страницы вопроса с селеном - PullRequest
0 голосов
/ 27 марта 2020

Я пытаюсь очистить основную c информацию в Google. Код, который я использую, следующий. К сожалению, он не переходит на следующую страницу, и я не понимаю причину этого. Я использую селен и Google chrome в качестве браузера (нет firefox). Не могли бы вы сказать мне, что не так в моем коде?

driver.get('https://www.google.com/advanced_search?q=google&tbs=cdr:1,cd_min:3/4/2020,cd_max:3/4/2020&hl=en')

search = driver.find_element_by_name('q')
search.send_keys('tea')
search.submit()

soup = BeautifulSoup(driver.page_source,'lxml')
result_div = soup.find_all('div', attrs={'class': 'g'})

titles = []

while True:
    next_page_btn =driver.find_elements_by_xpath("//a[@id='pnnext']")
    for r in result_div:
        if len(next_page_btn) <1:
            print("no more pages left")
            break
        else:
            try:
                title = None
                title = r.find('h3')

                if isinstance(title,Tag):
                    title = title.get_text()
                    print(title)
                if title != '' :
                    titles.append(title)
            except:
                continue

        element =WebDriverWait(driver,5).until(expected_conditions.element_to_be_clickable((By.ID,'pnnext')))
        driver.execute_script("return arguments[0].scrollIntoView();", element)
        element.click()

1 Ответ

1 голос
/ 27 марта 2020

Я установил q в строке запроса, чтобы быть пустой строкой. Используется as_q, а не q в качестве имени окна поиска. И немного переупорядочил ваш код. Я установил ограничение на количество страниц, чтобы оно продолжалось вечно.

from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions

driver = webdriver.Chrome()
driver.get('https://www.google.com/advanced_search?q=&tbs=cdr:1,cd_min:3/4/2020,cd_max:3/4/2020&hl=en')

search = driver.find_element_by_name('as_q')
search.send_keys('tea')
search.submit()

titles = []
page_limit = 5
page = 0

while True:
    soup = BeautifulSoup(driver.page_source, 'lxml')
    result_div = soup.find_all('div', attrs={'class': 'g'})
    for r in result_div:
        for title in r.find_all('h3'):
            title = title.get_text()
            print(title)
            titles.append(title)
    next_page_btn = driver.find_elements_by_id('pnnext')
    if len(next_page_btn) == 0 or page > page_limit:
        break
    element = WebDriverWait(driver, 5).until(expected_conditions.element_to_be_clickable((By.ID, 'pnnext')))
    driver.execute_script("return arguments[0].scrollIntoView();", element)
    element.click()
    page = page + 1
driver.quit()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...