Я пытаюсь создать 'Google Patent Crawler', используя python.
Я использовал такие модули, как запросы, BS4 и Selenium, но я полностью застрял на одном.
Проблема в том, что мой код не разбирает все html исходники. что-то отсутствует после синтаксического анализа.
Я обнаружил ошибку в 'driver.page_source'
Это не синтаксический анализ всего html.
Итак, я хочу спросить о другом хорошем способ ее решения.
Спасибо.
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_driver_path = 'C:/Users/Kay/Documents/Python/Driver/chromedriver.exe'
driver = webdriver.Chrome(options=chrome_options, executable_path=chrome_driver_path)
URL = 'https://patents.google.com/?q=engine'
driver.get(URL)
html = driver.page_source
gp_soup = BeautifulSoup(html, 'html5lib')