Я пытаюсь почистить страницу, используя python и красивый суп bs4
Я хочу сохранить текст в элементе <p>
на странице вместе с emojis в этом тексте.
Первая попытка была:
import urllib
import urllib.request
from bs4 import BeautifulSoup
urlobject = urllib.request.urlopen("https://example.com")
soup = BeautifulSoup(urlobject, "lxml")
result= list(map(lambda e: e.getText(), soup.find_all("p", {"class": "text"})))
Но это не относится к смайликам.Затем я попытался удалить .getText()
и просто сохранить:
result= list(map(lambda e: e, soup.find_all("p", {"class": "text"})))
Что заставило меня понять, что смайлики на этом сайте находятся в тегах alt
из img
:
<p class="text">I love the night<img alt="?" class="emoji" src="etc"/><span>!</span></p>
Итак, я хочу сделать следующее:
- getText () для
p
с классом text
- Но также получить
alt
для img
с class=emoji
И сохранить текст и смайлики в одном предложении.
Есть ли способ сделать это?
Любая помощь будетоценены.