driver.page_source не принимает все коды html - PullRequest
0 голосов
/ 12 июля 2020

Я пытаюсь создать 'Google Patent Crawler', используя python.

Я использовал такие модули, как запросы, BS4 и Selenium, но я полностью застрял на одном.

Проблема в том, что мой код не разбирает все html исходники. что-то отсутствует после синтаксического анализа.

Я обнаружил ошибку в 'driver.page_source'

Это не синтаксический анализ всего html.

Итак, я хочу спросить о другом хорошем способ ее решения.

Спасибо.

import requests

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_driver_path = 'C:/Users/Kay/Documents/Python/Driver/chromedriver.exe'
driver = webdriver.Chrome(options=chrome_options, executable_path=chrome_driver_path)

URL = 'https://patents.google.com/?q=engine'
driver.get(URL)
html = driver.page_source
gp_soup = BeautifulSoup(html, 'html5lib')
...