Как удалить ненужный код html из строк в списке python? - PullRequest
0 голосов
/ 29 апреля 2020

Я сейчас пытаюсь убрать элементы из моего списка python, которые на данный момент выглядят так:

emails = ['<div dir="auto">Hi,</div><div dir="auto"><br></div><div dir="auto"> I would like to ask about. Some more text here...<br></div><div dir="auto"><br></div><div dir="auto">Regards</div> <br> <span style="color:rgb(34,34,34);font-family:Arial,sans-serif;font-size:12.8px;background-color:rgb(255,255,255)"></span><html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>My Title</title> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <style type="text/css">/* e-mail bugfixes */ #outlook a {padding:0 0 0 0;} .ReadMsgBody {width:100%;} .ExternalClass {width:100%; line-height:100%;}  sup, sub {vertical-align:baseline; position:relative; top:-0.4em;}  sub {top:0.4em;}   /* General classes */  body {width:100% !important; margin:0;...',...]

Моя цель - в идеале сохранить только текст, который находится между html теги и удалить весь код html для каждого элемента в списке

Я пытался использовать BeautifulSoup, однако он в основном удалял только скобки из тегов html и оставлял остальные, вместо того, чтобы давать мне только фактические содержание электронной почты:

noHtml = []    
for x in emails:
    soup = BeautifulSoup(x)
    noHtml.append(soup.get_text())

Может ли кто-нибудь помочь с этим? Любой возможный способ, которым я могу достичь этого в Python? (не обязательно с BS) Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...