Я пытаюсь очистить текст HTML и извлечь из него простой текст, используя Jsoup . HTML может содержать не английский символ.
Например, текст HTML:
String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";
Теперь, если я использую Jsoup#parse(String html)
:
String text = Jsoup.parse(html).text();
Это печать:
Á example link.
И если я очищу текст, используя Jsoup#clean(String bodyHtml, Whitelist whitelist)
:
String text = Jsoup.clean(html, Whitelist.none());
Это печать:
Á example link.
У меня вопрос, как я могу получить текст
Á example link.
с использованием Whitelist
и clean()
метода? Я хочу использовать Whitelist
, поскольку мне может понадобиться Whitelist#addTags(String... tags)
.
Любая информация будет очень полезна для меня.
Спасибо.