Я ищу модуль python, который поможет мне избавиться от тегов HTML, но сохранить текстовые значения. Я пробовал BeautifulSoup раньше, и я не мог понять, как выполнить эту простую задачу. Я попытался найти модули Python, которые могли бы сделать это, но все они, кажется, зависели от других библиотек, которые плохо работают на AppEngine.
Ниже приведен пример кода из библиотеки очистки Ruby, и это то, что мне нужно в Python:
require 'rubygems'
require 'sanitize'
html = '<b><a href="http://foo.com/">foo</a></b><img src="http://foo.com/bar.jpg" />'
Sanitize.clean(html) # => 'foo'
Спасибо за ваши предложения.
-e