Я изучаю Python3 для веб-скрейпинга, вот мой код:
import requests
url = 'https://beijing.douban.com/events/week-all'
req = requests.get(url)
from bs4 import BeautifulSoup
soup = BeautifulSoup(req.text,'html.parser')
events = soup.find('ul',{'class':'events-list'}).findAll('li')
for event in events:
event_details = dict()
event_details['title']= event.find('div',{'class':'title'})
f = open('douban8.txt','a',encoding='utf-8')
print(event_details,file=f)
Я получил результаты, как показано ниже:
**{'title': <div class="title">
<a href="https://www.douban.com/event/31568343/" itemprop="url" title="年度动作奇幻大片《海王》北京IMAX 3D零点场免费观影来了!">
<span itemprop="summary">年度动作奇幻大片《海王》北京IMAX 3D零点场免费观影来了!</span>
</a>
</div>}
{'title': None}
{'title': None}
{'title': None}
{'title': None}**
Все, что я хочу, это строка между тегами, ноЯ не могу избавиться от тегов из всего текста.Я пытался .string или .text и некоторые другие методы, все не удалось.Кто-нибудь может дать мне какой-нибудь совет, пожалуйста?
#
большое спасибо @ sohan-das, я обновляю код здесь:
import requests
url = 'https://beijing.douban.com/events/week-all'
req = requests.get(url)
from bs4 import BeautifulSoup
soup = BeautifulSoup(req.text,'html.parser')
events = soup.find('ul',{'class':'events-list'}).findAll('li')
for event in events:
event_details=dict()
try:
event_details['title'] = event.find('div'{'class','title'}).text.strip()
f = open('douban9.txt', 'a', encoding='utf-8')
print(event_details, file=f)
except AttributeError:
pass
continue
Это работает сейчас