Я ищу лучший способ конвертировать HTML в текст, используя только модули из стандартной библиотеки Python 2.7.x. (Т.е. нет BeautifulSoup
и т. Д.)
Под преобразованием HTML в текст я подразумеваю моральный эквивалент lynx -dump
. На самом деле, достаточно просто разумно избавиться от тегов HTML и преобразовать все объекты HTML в ASCII (или в кодировку UTF8) в кодировке UTF8.
Нет ответов на основе регулярных выражений, пожалуйста. (Регулярные выражения не соответствуют задаче.)
Спасибо!