Мы получаем почту с нашего аккаунта Gmail, используя IMAP4_SSL и python. Тело письма извлекается в формате html. Нам нужно преобразовать это в открытый текст. Кто-нибудь может помочь нам с этим?
Встань на плечи великанов ... Питер Бенгтссон разработал решение именно этой проблемы здесь . В сценарии Питера используется потрясающая BeautifulSoup , автор Леонард Ричардсон, и функция unescape () Фредрика Лунда .
Используя тестовый пример Питера, вы получите это:
This is a paragraph. Foobar [1] http://two.com Visit http://www.google.com. Text elsewhere. Elsewhere [2] [1] http://one.com [2] http://three.com
... из этого:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <html> <body> <div id="main"> <p>This is a paragraph.</p> <p><a href="http://one.com">Foobar</a> <br /> <a href="http://two.com">two.com</a> </p> <p>Visit <a href="http://www.google.com">www.google.com</a>.</p> <br /> Text elsewhere. <a href="http://three.com">Elsewhere</a> </div> </body> </html>