Question

Список допустимых символов XML хорошо известен, как определено в спецификации:

#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

Мой вопрос заключается в том, возможно ли сделать регулярное выражение PCRE для этого (или его обратного) без фактического жесткого кодирования кодовых точек, используя общие категории Unicode. Инверс может быть чем-то вроде [\ p {Cc} \ p {Cs} \ p {Cn}], за исключением того, что неправильно покрывает перевод строки и табуляции и пропускает некоторые другие недопустимые символы.

Jeff Atwood · Answer 1 · 07 июня 2009

Я знаю, что это не совсем ответ на ваш вопрос, но полезно иметь его здесь:

Регулярное выражение для соответствия действительное XML-символы:

[\u0009\u000a\u000d\u0020-\uD7FF\uE000-\uFFFD]

Таким образом, чтобы удалить недействительных символов из XML, вы должны сделать что-то вроде

// filters control characters but allows only properly-formed surrogate sequences
private static Regex _invalidXMLChars = new Regex(
    @"(?<![\uD800-\uDBFF])[\uDC00-\uDFFF]|[\uD800-\uDBFF](?![\uDC00-\uDFFF])|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F\uFEFF\uFFFE\uFFFF]",
    RegexOptions.Compiled);

/// <summary>
/// removes any unusual unicode characters that can't be encoded into XML
/// </summary>
public static string RemoveInvalidXMLChars(string text)
{
    if (string.IsNullOrEmpty(text)) return "";
    return _invalidXMLChars.Replace(text, "");
}

У меня был наш резидентский гений в области регулярных выражений / XML, он из 4400+ постов с голосованием , проверьте это, и он подписал его.

some · Answer 2 · 29 декабря 2008

Для систем, которые внутренне хранят кодовые точки в UTF-16 , обычно используют суррогатные пары (xD800-xDFFF) для кодовых точек выше 0xFFFF, и в этих системах вы должны проверить, действительно ли вы можете использовать для пример \ u12345 или должен указать это как суррогатную пару. (Я только что узнал, что в C # вы можете использовать \ u1234 (16 бит) и \ U00001234 (32 бит) )

Согласно Microsoft «рекомендация W3C не допускает использование суррогатных символов в именах элементов или атрибутов». При поиске на сайте W3s я нашел C079 и C078 , которые могут представлять интерес.

Yuval Rimar · Answer 3 · 19 февраля 2012

Я пробовал это в Java, и это работает:

private String filterContent(String content) {
    return content.replaceAll("[^\\u0009\\u000a\\u000d\\u0020-\\uD7FF\\uE000-\\uFFFD]", "");
}

Спасибо, Джефф.

Rafi · Answer 4 · 14 мая 2017

Приведенные выше решения не сработали, если в xml присутствовал шестнадцатеричный код. например

<element></element>

Следующий код сломается:

string xmlFormat = "<element>{0}</element>";
string invalid = " &#x8;";
string xml = string.Format(xmlFormat, invalid);
xml = Regex.Replace(xml, @"[\x01-\x08\x0B\x0C\x0E\x0F\u0000-\u0008\u000B\u000C\u000E-\u001F]", "");
XDocument.Parse(xml);

Возвращает:

XmlException : '', шестнадцатеричное значение 0x08, является недопустимым символом. Строка 1, позиция 14.

Следующее является улучшенным регулярным выражением и исправило проблему, упомянутую выше:

& # х ([0-8BCEFbcef] | 1 [0-9A-Fa-е]); | [\ x01- \ x08 \ x0B \ x0C \ x0E \ X0F \ u0000- \ u0008 \ u000B \ \ u000C u000E- \ u001F]

Вот модульный тест для первых 300 символов Юникода и проверка удаления только недопустимых символов:

[Fact]
        public void validate_that_RemoveInvalidData_only_remove_all_invalid_data()
        {
            string xmlFormat = "<element>{0}</element>";
            string[] allAscii = (Enumerable.Range('\x1', 300).Select(x => ((char)x).ToString()).ToArray());
            string[] allAsciiInHexCode = (Enumerable.Range('\x1', 300).Select(x => "&#x" + (x).ToString("X") + ";").ToArray());
            string[] allAsciiInHexCodeLoweCase = (Enumerable.Range('\x1', 300).Select(x => "&#x" + (x).ToString("x") + ";").ToArray());

            bool hasParserError = false;
            IXmlSanitizer sanitizer = new XmlSanitizer();

            foreach (var test in allAscii.Concat(allAsciiInHexCode).Concat(allAsciiInHexCodeLoweCase))
            {
                bool shouldBeRemoved = false;
                string xml = string.Format(xmlFormat, test);
                try
                {
                    XDocument.Parse(xml);
                    shouldBeRemoved = false;
                }
                catch (Exception e)
                {
                    if (test != "<" && test != "&") //these char are taken care of automatically by my convertor so don't need to test. You might need to add these.
                    {
                        shouldBeRemoved = true;
                    }
                }
                int xmlCurrentLength = xml.Length;
                int xmlLengthAfterSanitize = Regex.Replace(xml, @"&#x([0-8BCEF]|1[0-9A-F]);|[\u0000-\u0008\u000B\u000C\u000E-\u001F]", "").Length;
                if ((shouldBeRemoved && xmlCurrentLength == xmlLengthAfterSanitize) //it wasn't properly Removed
                    ||(!shouldBeRemoved && xmlCurrentLength != xmlLengthAfterSanitize)) //it was removed but shouldn't have been
                {
                    hasParserError = true;
                    Console.WriteLine(test + xml);
                }
            }
            Assert.Equal(false, hasParserError);
        }

Alex Vazhev · Answer 5 · 20 февраля 2018

Другой способ удалить неправильные символы XML в C # с помощью XmlConvert.IsXmlChar Method (Доступно с .NET Framework 4.0)

public static string RemoveInvalidXmlChars(string content)
{
   return new string(content.Where(ch => System.Xml.XmlConvert.IsXmlChar(ch)).ToArray());
}

или вы можете проверить, что все символы действительны в формате XML.

public static bool CheckValidXmlChars(string content)
{
   return content.All(ch => System.Xml.XmlConvert.IsXmlChar(ch));
}

.Net Fiddle - https://dotnetfiddle.net/v1TNus

Например, символ вертикальной табуляции (\ v) недопустим для XML, это допустимый UTF-8, но не допустимый XML 1.0, и даже многие библиотеки (включая libxml2) пропускают его и без вывода сообщений выводят недопустимый XML.

Unicode Regex; Неверные символы XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Unicode Regex; Неверные символы XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы