DOT NET код для преобразования HTML в текст - PullRequest
3 голосов
/ 11 мая 2009

Я создаю небольшой алгоритм для извлечения текста с веб-сайтов .. затем найду ответы (опубликую сценарий после завершения).

Для этого мне нужно преобразовать весь HTML-код внутри и в простой читаемый английский текст.

Я вручную удалил все теги html, но от некоторых записей CSS трудно избавиться. Любые простые идеи о том, как преобразовать HTML в простой английский текст?

Спасибо.

Ответы [ 2 ]

4 голосов
/ 11 мая 2009

кто-то уже сделал всю работу для вас.

0 голосов
/ 12 мая 2009

Я разработал нечто подобное, избегая потери производительности Regex: эквивалент strip_tags для ASP.NET (может быть запущен и на настольных сборках .NET)

...