Вы хотите текстовую версию HTML-файла? Если это так, все, что вам нужно, это что-то вроде:
InputStream input = new FileInputStream("myfile.html");
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
new HtmlParser().parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
BodyContentHandler, если он создан без аргументов конструктора или с ограничением символов, захватит текст (только) тела html и вернет его вам.