Декодирование HTML-объектов в Java: апостроф - PullRequest
0 голосов
/ 21 октября 2010

Я должен декодировать, используя Java, строки HTML, которые содержат следующие объекты: «» и «& apos».Я использую Apache Commons Lang , но он не декодирует эти две сущности, поэтому в настоящее время я делаю следующее, но я ищу самый быстрый способ сделать то, что я хочу.

import org.apache.commons.lang.StringEscapeUtils;

public class StringUtil {

        public static String decodeHTMLString(String s) {
            return StringEscapeUtils.unescapeHtml((s.replace("'", "`").replace("'", "'")));
        }

}

Я искал более старые вопросы, но, похоже, никто не ответил на мой вопрос.

1 Ответ

2 голосов
/ 21 октября 2010

Ну, я думаю, что отчасти проблема в том, что одна из ваших сущностей имеет двойную кодировку: "'".Это не будет превращено в апостроф любым декодером.

Что касается "'", очевидно, что он не является + технически + частью набора сущностей html.

...