У меня проблема с тегом span, у которого нет идентификатора или класса. Более широкий подход заключается в извлечении текста между «ПУНКТ 1. БИЗНЕС» К «ПУНКТ 1А. ФАКТОРЫ РИСКА» по ссылке ниже. Тем не менее, я не могу найти способ найти эту часть, потому что диапазон, в котором она находится, не имеет ни идентификатора, ни класса, который я могу найти (только родительский div, в котором находится диапазон: div = soup.find("div", {"id": "dynamic-xbrl-form"})
.
Этот код не работает, к сожалению: #text = unicodedata.normalize('NFKD', soup.get_text()).replace('\n', '')
Вот мой подход:
url = 'https://www.sec.gov/ix?doc=/Archives/edgar/data/934549/000093454919000017/actg2018123110-k.htm#s62CF0831C63E51C2BEF33F4163F1DE65'
raw = requests.get(url)
soup = BeautifulSoup(raw.content)
div = soup.find("span", {"id": ... })
print(div.txt)
У вас есть какие-либо идеи или советы?
Большое спасибо Julius