Я впервые работаю с BeautifulSoup и пытаюсь извлечь шутку из html (который загружается). Но, к сожалению, нет классов, которые я мог бы использовать для извлечения информации.
Есть строка "начало" и "конец шутки", и мне нужен заголовок и текст шутки. , В приложении вы можете найти мой код, а также вывод.
from bs4 import BeautifulSoup
with open('init1.html', 'r') as f:
contents = f.read()
soup = BeautifulSoup(contents, 'lxml')
print(soup.prettify)
Output:
<bound method Tag.prettify of <html>
<head>
<title>Joke 1 of 25</title>
</head>
<body bgcolor="#fddf84" text="black">
<center>
<table cellpadding="0" cellspacing="0" width="620">
<td width="470">
<font size="+1"> <br/>
<!--begin of joke -->
A man visits the doctor. The doctor says "I have bad news for you.You have
cancer and Alzheimer's disease". <p>
The man replies "Well,thank God I don't have cancer!"
<!--end of joke -->
</p></font></td></table>
</center>
</body>
</html>
>