Вы можете использовать утилиту, которая преобразует HTML в текст на Java (Google для него, например, this ), убирая теги и конвертируя специальные символы HTML. Однако это не даст вам всего, что вам нужно, особенно не форматирование (например, списки) и ссылки.
Другой вариант - использовать XSLT для преобразования вашего XHTML (напишите его правильно ...) в текст и использовать процессор XSLT (например, Xalan-J или Saxon ) для запустить его. Это довольно простое упражнение XSLT, если ваши требования просты (например, вас не волнуют проблемы CSS).