Разбор веб-страницы с BeautifulSoup не дает полного содержимого страницы - PullRequest
2 голосов
/ 09 июня 2019

Я пытаюсь разобрать описание "Наслаждайтесь возможностью создавать и контролировать ..." с этой веб-страницы: https://www.origin.com/zaf/en-us/store/the-sims/the-sims-4.

Когда я анализирую страницу с Beautifulsoup, источник страницы невключите описание, и я не уверен, почему.

handle = 'sims 4'

query = handle + " origin.com"  # enter query to search
print(query)
for topresult in search(query, tld="com", lang='en', num=10, stop=1, pause=2):  
    print('Query Successful:' + handle)

page = requests.get(topresult)
soup = BeautifulSoup(page, 'html.parser')

print(soup)

Любая помощь будет оценена.Я пытался понять это в течение пары дней.Я также пытался использовать Selenium и драйвер Chrome, но получил похожий результат.

1 Ответ

1 голос
/ 09 июня 2019

Запросы и BeautifulSoup не будут работать для этого, потому что страница загружается динамически с JavaScript.Вот почему вы не можете найти описание.Selenium Webdriver должен работать просто отлично.Я написал код, чтобы получить описание.


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

driver.get('https://www.origin.com/zaf/en-us/store/the-sims/the-sims-4')
desc = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//p[@ng-bind-html="::$ctrl.description"]')))
print(desc.text)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...