Jsoup удаляет цитаты и апострофы - PullRequest
0 голосов
/ 25 января 2012

У меня есть что-то вроде

Whitelist whitelist = new Whitelist();
whitelist.addTags("p", "i", "b", "em", "strong", "u");
String content = Jsoup.clean(data.html(), whitelist);

в моем коде.Но библиотека Jsoup удаляет «и». Как мне это предотвратить.

например = Это солнечный день.* Это солнечный день.

1 Ответ

4 голосов
/ 27 января 2012

Вы используете data.html ().Вот что говорит об этом API класса Element: API элемента

Retrieves the element's inner HTML. E.g. on a <div> with one empty <p>, would return <p></p>. (Whereas Node.outerHtml() would return <div><p></p></div>.) 

, поэтому вместо него следует использовать метод outerHtml ():

String content = Jsoup.clean(data.outerHtml(), whitelist);

вот еще одна ссылка на полезные примеры.пример содержит оба метода, и вы можете увидеть разницу: текст атрибута Jsoup и пример HTML

Что касается другой проблемы (цитата превращается в знак вопроса), я думаю, что это вопроскодировка и набор символов, как это не происходит на моем компьютере.проверьте кодировку исходного html-файла и попробуйте сначала проанализировать его в Jsoup с соответствующим набором символов.

...