Я новичок в Python и BeautifulSoup.Я пытаюсь выяснить, как сопоставить только теги, которые являются <div>
элементами, содержащими определенный образец текста, принадлежащий атрибуту.Например, все случаи, когда 'id' : 'testid'
или везде 'class' : 'title'
.
Это то, что у меня есть:
def cleanup(filename):
fh = open(filename, "r")
soup = BeautifulSoup(fh, 'html.parser')
for div_tag in soup.find('div', {'class':'title'}):
h2_tag = soup.h2_tag("h2")
div_tag.div.replace_with(h2_tag)
del div_tag['class']
f = open("/tmp/filename.modified", "w")
f.write(soup.prettify(formatter="html5"))
f.close()
Как только я смогу сопоставить все эти конкретные элементы,в этот момент я могу понять, как управлять атрибутами (удалить класс, переименовать сам тег с <div>
на <h1>
и т. д.).Так что я знаю, что фактическая часть очистки, вероятно, не работает так, как в настоящее время.