Как удалить XML в Java - PullRequest
26 голосов
/ 14 мая 2010

Мне нужно удалить строку xml, содержащую экранированные теги XML:

<
>
&
etc...

Я нашел несколько библиотек, которые могут выполнить эту задачу, но я бы предпочел использовать один метод, который может выполнить эту задачу.

Может кто-нибудь помочь?

ура, Бас Хендрикс

Ответы [ 4 ]

46 голосов
/ 14 мая 2010
StringEscapeUtils.unescapeXml(xml)

( commons-lang , скачать )

6 голосов
/ 20 декабря 2011

Вот простой способ удалить XML. Он обрабатывает предопределенные сущности XML и десятичные числовые сущности (& # nnnn;). Его изменение для обработки шестнадцатеричных объектов (& # xhhhh;) должно быть простым.

public static String unescapeXML( final String xml )
{
    Pattern xmlEntityRegex = Pattern.compile( "&(#?)([^;]+);" );
    //Unfortunately, Matcher requires a StringBuffer instead of a StringBuilder
    StringBuffer unescapedOutput = new StringBuffer( xml.length() );

    Matcher m = xmlEntityRegex.matcher( xml );
    Map<String,String> builtinEntities = null;
    String entity;
    String hashmark;
    String ent;
    int code;
    while ( m.find() ) {
        ent = m.group(2);
        hashmark = m.group(1);
        if ( (hashmark != null) && (hashmark.length() > 0) ) {
            code = Integer.parseInt( ent );
            entity = Character.toString( (char) code );
        } else {
            //must be a non-numerical entity
            if ( builtinEntities == null ) {
                builtinEntities = buildBuiltinXMLEntityMap();
            }
            entity = builtinEntities.get( ent );
            if ( entity == null ) {
                //not a known entity - ignore it
                entity = "&" + ent + ';';
            }
        }
        m.appendReplacement( unescapedOutput, entity );
    }
    m.appendTail( unescapedOutput );

    return unescapedOutput.toString();
}

private static Map<String,String> buildBuiltinXMLEntityMap()
{
    Map<String,String> entities = new HashMap<String,String>(10);
    entities.put( "lt", "<" );
    entities.put( "gt", ">" );
    entities.put( "amp", "&" );
    entities.put( "apos", "'" );
    entities.put( "quot", "\"" );
    return entities;
}
4 голосов
/ 27 ноября 2014

Вот тот, который я написал за десять минут.Он не использует регулярные выражения, только простые итерации.Я не думаю, что это может быть улучшено, чтобы быть намного быстрее.

public static String unescape(final String text) {
    StringBuilder result = new StringBuilder(text.length());
    int i = 0;
    int n = text.length();
    while (i < n) {
        char charAt = text.charAt(i);
        if (charAt != '&') {
            result.append(charAt);
            i++;
        } else {
            if (text.startsWith("&amp;", i)) {
                result.append('&');
                i += 5;
            } else if (text.startsWith("&apos;", i)) {
                result.append('\'');
                i += 6;
            } else if (text.startsWith("&quot;", i)) {
                result.append('"');
                i += 6;
            } else if (text.startsWith("&lt;", i)) {
                result.append('<');
                i += 4;
            } else if (text.startsWith("&gt;", i)) {
                result.append('>');
                i += 4;
            } else i++;
        }
    }
    return result.toString();
}
0 голосов
/ 03 февраля 2012

Если вы работаете с JSP, используйте su: unescapeXml из openutils-elfunctions

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...