Я использую этот код, чтобы найти все интересные ссылки на странице:
soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))
И он делает свою работу довольно хорошо. К сожалению, внутри этого тега a есть много вложенных тегов, таких как font , b и другие вещи ... Я хотел бы получить только текст содержание, без каких-либо других тегов HTML.
Пример ссылки:
<A HREF="notizia.php?idn=1134" OnMouseOver="verde();" OnMouseOut="blu();"><FONT CLASS="v12"><B>03-11-2009: <font color=green>CCS Ingegneria Elettronica-Sportello studenti ed orientamento</B></FONT></A>
Конечно, это некрасиво (и разметка не всегда одинакова!), И я бы хотел получить:
03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento
В документации сказано использовать text=True
в методе findAll, но он игнорирует мое регулярное выражение. Зачем? Как я могу решить это?