C # XmlTextReader: замена html-сущности - PullRequest
1 голос
/ 19 октября 2010

У меня есть XML-файл с TAG, как это:

<Question>dzia&amp;#322;owa</Question>

Я читаю этот файл с помощью XmlTextReader и для этого TAG я получаю что-то вроде этого:

dzia&#322;owa

Какзамените html номера сущностей внутри моего xml, чтобы получить что-то вроде этого: "działowa"?

Ответы [ 2 ]

1 голос
/ 19 октября 2010

Единственная сущность HTML в вашем образце - &amp;.Затем у вас есть нормальный текст с надписью #322;.Вы либо хотите

<Question>dzia&amp;&#322;owa</Question>

, что даст "dzia & łowa" (вероятно, не то, что вы хотите)

или

<Question>dzia&#322;owa</Question>

, что даст "działowa"

0 голосов
/ 19 октября 2010

Я думаю, что решил часть проблемы (кодировка & # number; to char):

public static string EntityNumbersToEntityValues(string s)
        {
            Match match = Regex.Match(s, @"&#(\d+);", RegexOptions.IgnoreCase);
            while(match.Success)
            {
                string v = match.Groups[1].Value;
                string c = char.ConvertFromUtf32(int.Parse(v));
                s = Regex.Replace(s, string.Format("&#{0};", v), c);
                match = match.NextMatch();
            }           
            return s;
        }
...