Я использую Jsoup для разбора HTML.
Я замечаю, что когда я использую Jsoup, он заменяет "& # 14" на "\ u000E"
Как я могу предотвратить эту замену?
мой код:
private String parse(String inputText) {
Document.OutputSettings settings = new Document.OutputSettings().charset(Charset.forName("ASCII"));
Document doc = Jsoup.parse(inputText);
return doc.outputSettings(settings).html();
}
На выходе я получаю:
<p style="MARGIN-TOP:0PX; MARGIN-BOTTOM:-2PX; WIDTH:48PX; FLOAT:LEFT"> </p>
вывод, который я хотел бы:
<P STYLE="MARGIN-TOP:0PX; MARGIN-BOTTOM:-2PX; WIDTH:48PX; FLOAT:LEFT">

</P>