Соскоб в сети с BeautifulSoup и необнаруженный контент - PullRequest
0 голосов
/ 04 февраля 2020

Я пытаюсь сделать базовый c веб-скребок, используя BeautifulSoup в Python. Однако моя целевая страница усложняет задачу.

Когда я делаю запрос, я получаю ответ с HTML. Однако в теле он отображает только 1 деление как:

'<div id="miniwidget" style="width:100%; height:100%;"></div>'

Я просматривал сайты HTML в Google Chrome, но я достаточно новичок в этом, чтобы не совсем понять, почему страница не генерирует весь контент внутри этого div.

Как бы я go о создании запроса, который генерировал бы остальную часть HTML?

Вот что я написал:

from bs4 import BeautifulSoup
from urllib.request import urlopen

def Call_Webpage(url):
  html = urlopen(url)
  bsObj = BeautifulSoup(html, features="html.parser")
   soup = bsObj.body.findAll('div')
   print(soup)

Ответ:

<div id="miniwidget" style="width:100%; height:100%;"></div>

1 Ответ

0 голосов
/ 04 февраля 2020

зависит от того, что вы хотите найти на этой странице ... например, для проверки мета-тегов вы должны использовать soup.find_all ('meta') и т. Д. c.

, вы также можете сделать

    request = urllib.request.Request(domain_url, None, headers)
    result = urllib.request.urlopen(request,timeout=timeout)
    resulttext = result.read()

чтобы получить всю страницу в виде текста

...