BeautifulSoup HTML извлечь текст - PullRequest
0 голосов
/ 13 апреля 2020

Я впервые работаю с BeautifulSoup и пытаюсь извлечь шутку из html (который загружается). Но, к сожалению, нет классов, которые я мог бы использовать для извлечения информации.

Есть строка "начало" и "конец шутки", и мне нужен заголовок и текст шутки. , В приложении вы можете найти мой код, а также вывод.

from bs4 import BeautifulSoup

with open('init1.html', 'r') as f:
    contents = f.read()
    soup = BeautifulSoup(contents, 'lxml')   
    print(soup.prettify)

Output:
<bound method Tag.prettify of <html>
<head>
<title>Joke 1 of 25</title>
</head>
<body bgcolor="#fddf84" text="black">
<center>
<table cellpadding="0" cellspacing="0" width="620">
<td width="470">
<font size="+1"> <br/>
<!--begin of joke -->
A man visits the doctor. The doctor says "I have bad news for you.You have
cancer and Alzheimer's disease". <p>
The man replies "Well,thank God I don't have cancer!"
<!--end of joke -->
</p></font></td></table>
</center>
</body>
</html>
>

1 Ответ

0 голосов
/ 13 апреля 2020

Это просто и работает:

soup.table.td.text.strip()
# -> 'A man visits the doctor. The doctor says "I have bad news for you.You have\ncancer and Alzheimer\'s disease". \nThe man replies "Well,thank God I don\'t have cancer!"

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...