Я сейчас пытаюсь убрать элементы из моего списка python, которые на данный момент выглядят так:
emails = ['<div dir="auto">Hi,</div><div dir="auto"><br></div><div dir="auto"> I would like to ask about. Some more text here...<br></div><div dir="auto"><br></div><div dir="auto">Regards</div> <br> <span style="color:rgb(34,34,34);font-family:Arial,sans-serif;font-size:12.8px;background-color:rgb(255,255,255)"></span><html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>My Title</title> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <style type="text/css">/* e-mail bugfixes */ #outlook a {padding:0 0 0 0;} .ReadMsgBody {width:100%;} .ExternalClass {width:100%; line-height:100%;} sup, sub {vertical-align:baseline; position:relative; top:-0.4em;} sub {top:0.4em;} /* General classes */ body {width:100% !important; margin:0;...',...]
Моя цель - в идеале сохранить только текст, который находится между html теги и удалить весь код html для каждого элемента в списке
Я пытался использовать BeautifulSoup, однако он в основном удалял только скобки из тегов html и оставлял остальные, вместо того, чтобы давать мне только фактические содержание электронной почты:
noHtml = []
for x in emails:
soup = BeautifulSoup(x)
noHtml.append(soup.get_text())
Может ли кто-нибудь помочь с этим? Любой возможный способ, которым я могу достичь этого в Python? (не обязательно с BS) Заранее спасибо!