Я хотел бы проанализировать HTML-файл с помощью python, но BeautifulSoup пропускает некоторые ключевые теги.
Часть HTML-файла на веб-сайте выглядит так, как и все дочерние элементы.
HTML-фрагмент
Но при использовании функции prettify Beautifulsoup это выглядит так, без дочерних элементов div.
HTML-фрагмент из Python
Код, который я использовал здесь:
from bs4 import BeautifulSoup
import urllib.request
#A random plus code, the %2B is just a +
PLUS_CODE = "792F7C4F%2B54"
url = "https://www.plus.codes/" + PLUS_CODE
hdr = {"User-Agent" : "Mozilla/5.0"}
req = urllib.request.Request(url, headers=hdr)
r = urllib.request.urlopen(req)
r_tags = r.read().decode('utf-8')
soup = BeautifulSoup(r_tags, "lxml")
print(soup.prettify())
Что в итоге происходит, так это то, что я не могу добраться до div-класса детей и извлечь нужный мне текст.