Я сканирую несколько веб-страниц, но у меня проблема с некоторыми веб-сайтами, которые имеют контент / текст с тегами div, а не p или span. Ранее скрипт работал нормально, получая текст из тегов p и span, однако, если фрагмент кода подобен приведенному ниже:
<div>Hello<p>this is a test</p></div>
Использование find_all ('div') и .getText () обеспечивает следующий вывод:
Hello this is a test
Я хочу получить результат просто Hello. Это позволит мне определить, какой контент в каких тегах. Я попытался использовать recursive = False, однако, похоже, что он не работает на целой веб-странице с несколькими тегами div, в которых есть содержимое.
ДОБАВЛЕННЫЙ КОД КОДА
req = urllib.request.Request("https://www.healthline.com/health/fitness-exercise/pushups-everyday", headers={'User-Agent': 'Mozilla/5.0'})
html = urllib.request.urlopen(req).read().decode("utf-8").lower()
soup = BeautifulSoup(html, 'html.parser')
divTag = soup.find_all('div')
text = []
for div in divTag:
i = div.getText()
text.append(i)
print(text)
Заранее спасибо .