На веб-странице, которую я копирую, есть много заголовков, и мне нужно идентифицировать их, чтобы установить одно значение в моей базе данных.Проблема заключается в том, что эти названия не имеют определенного идентификатора или класса.
Они следуют этому шаблону:
<p ALIGN="CENTER"><font face="Arial" SIZE="2">
<a name="tituloivcapituloisecaoii"></a><b>
<span style="text-transform: uppercase">Seção II<br>
DAS ATRIBUIÇÕES DO CONGRESSO NACIONAL</span></b></font></p>
<p ALIGN="CENTER"><font face="Arial" SIZE="2"><a name="tituloivcapituloisecaoiii"></a>
<b><span style="text-transform: uppercase">Seção III<br>
DA CÂMARA DOS DEPUTADOS</span></b></font></p>
Один атрибут, который их идентифицирует: text-trasform: uppercase
.
Как я могу проверить, содержит ли p
один заголовок?
Это мой текущий код:
soup = BeautifulSoup(f, 'html.parser')
for tag in soup.findAll():
if tag.name in ['a', 'strike']:
tag.decompose()
allp = soup.findAll('p')
for p in allp:
print(p)