Красивый суп оставляет ярлыки - PullRequest
0 голосов
/ 15 сентября 2018

Я хотел бы проанализировать HTML-файл с помощью python, но BeautifulSoup пропускает некоторые ключевые теги.

Часть HTML-файла на веб-сайте выглядит так, как и все дочерние элементы. HTML-фрагмент

Но при использовании функции prettify Beautifulsoup это выглядит так, без дочерних элементов div. HTML-фрагмент из Python

Код, который я использовал здесь:

from bs4 import BeautifulSoup
import urllib.request

#A random plus code, the %2B is  just a +

PLUS_CODE = "792F7C4F%2B54"
url = "https://www.plus.codes/" + PLUS_CODE

hdr = {"User-Agent" : "Mozilla/5.0"}
req = urllib.request.Request(url, headers=hdr)
r = urllib.request.urlopen(req)
r_tags = r.read().decode('utf-8')
soup = BeautifulSoup(r_tags, "lxml")

print(soup.prettify())

Что в итоге происходит, так это то, что я не могу добраться до div-класса детей и извлечь нужный мне текст.

1 Ответ

0 голосов
/ 15 сентября 2018

Попробуйте 'lxml' вместо 'html.parser' в методе BeautifulSoup. Может быть, это решит проблему. Если нет, поделитесь кодом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...