Двигатель блики может сделать это в два этапа. См. info.bliki.wiki / Home
- Как преобразовать HTML в текст Mediawiki - текст nediawiki уже довольно простой текстовый формат, но вы можете преобразовать его дальше
- Как преобразовать текст Mediawiki в обычный текст - ваша цель.
Это будет примерно 7-8 строк кода, например:
// html to wiki
import info.bliki.html.HTML2WikiConverter;
import info.bliki.html.wikipedia.ToWikipedia;
// wiki to plain text
import info.bliki.wiki.filter.PlainTextConverter;
import info.bliki.wiki.model.WikiModel;
...
String sbodyhtml = readFile( infilepath ); //get content as string
HTML2WikiConverter conv = new HTML2WikiConverter();
conv.setInputHTML( sbodyhtml );
String resultwiki = conv.toWiki(new ToWikipedia());
WikiModel wikiModel = new WikiModel("${image}", "${title}");
String plainStr = wikiModel.render(new PlainTextConverter(false), resultwiki );
System.out.println( plainStr );
Jsoup может сделать это проще:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
Document doc = Jsoup.parse(sbodyhtml);
String plainStr = doc.body().text();
но в результате вы потеряете все форматирование абзаца - новых строк не будет.