Вот что я делаю:
public static String htmlToText(String inString)
{
String noentity=StringEscapeUtils.unescapeHtml(inString);
return noentity;
}
Это то место, где я его использую:
String html = "<html><body>string 1<br />—<p>string 2</p></body></html>";
String nohtml = Utility.htmlToText(html);
Log.i("NON HTML STRING:",nohtml);
И это вывод в журнале:
10-13 12:38:12.121: INFO/NON HTML STRING:(300): <html><body>string 1<br />â<p>string 2</p></body></html>
В соответствии со ссылкой на http://www.w3.org/TR/html4/sgml/entities.html —
следует заменить на «-» (это ожидаемый результат), а не на «â» (это не то, что я хочу). *
Сначала я использовал JSoup, и то же самое происходило. Думая, что это ошибка, я переключился на org.apache.commons.lang, и происходит то же самое.
Кто-нибудь еще знает, что здесь происходит? Я что-то упускаю из виду?