Я работаю над небольшим сканером python и пытаюсь извлечь каждый текст, хранящийся в тегах p, h1, h2, h3, h4, h5, h6
и li
.
Существует метод, который называется soup.find_all () но он ищет только один указанный атрибут c в соответствии с документацией .
Что будет наиболее эффективным для извлечения текста из этих тегов?
Вот что Я попробовал:
from bs4 import BeautifulSoup
VALID_TAGS = ['p', 'ul', 'li', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']
def scrap(text):
soup = BeautifulSoup(text, 'html.parser')
for tag in soup.findAll(True):
if tag.name in VALID_TAGS:
##stuck