Итак, кусок кода для вас.
Я использую http://htmlparser.sourceforge.net/ для разбора HTML. Он не слишком сложен и прост в использовании.
В основном это выглядит так:
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
...
String html; /* read your HTML into variable 'html' */
String result=null;
....
try {
Parser p = new Parser(html);
NodeList nodes = p.parse(null);
result = nodes.asString();
} catch (ParserException e) {
e.printStackTrace();
}
Это даст вам простой текст без тегов (но никакие заменители, такие как & amp; не будут исправлены). И, конечно, вы можете сделать намного больше с этой библиотекой, например, применяя фильтры, посетителей, итерации и все такое.