Конвертировать HTML в обычный текст? - PullRequest
0 голосов
/ 26 апреля 2009

Я могу читать электронные письма от Microsoft Exchange, используя IMAP-клиент от Lumisoft. Я установил настройки сервера Exchange для преобразования любой почты в обычный текст. Тем не менее, когда я читаю информацию, она все еще содержит HTML / CSS.

Каков наилучший способ удаления HTML / CSS из тела письма? Или на сервере обмена есть настройка, которую я пропустил?

Ответы [ 2 ]

1 голос
/ 21 мая 2009

Я обычно использую один из этих подходов ...

  1. Использование регулярных выражений. Это может быть немного сложно сделать правильно, если вам нужно найти решение, которое также работает со всеми видами недопустимой разметки, но я держу пари, что кто-то другой сделал это раньше вас (подсказка: Google или поиск SO).

  2. Использование библиотеки HTML-анализатора. Вы можете найти один для любого популярного языка программирования там. Я рекомендую использовать Html Agility Pack.

0 голосов
/ 27 апреля 2009

Я не совсем уверен, как именно работает ваша установка, можете ли вы запускать сценарии и т. Д. Анализатор HTML был бы лучшим способом для анализа HTML, очевидно. Например, с Hpricot (библиотека для разбора HTML на Ruby) вы можете сделать puts doc.find_element('body').inner_text, и это будет печатать текстовое содержимое документа.

...