Преобразование строки идентификаторов символов Unicode в текст Unicode .NET - PullRequest
0 голосов
/ 16 ноября 2018

Я занимаюсь веб-очисткой, и я получаю json-файл от скребка, проблема в том, что для любого языка, кроме английского, записывается фактический идентификатор символа Unicode, например:

, в нем будет храниться

פלסטינים

вместо

םויסלפנ

Что я хочу сделать, это ввести строку, в которой хранятся идентификаторы символов + английский текст + объекты HTML, и заменить каждый идентификатор Unicode ID / HTML на код Unicode.символ, который подходит емуКто-нибудь знает метод, который может помочь мне с задачей?Использование .NET ASP.NET JSON.NET IronWebScraper

- немного новый для stackoverflow

Редактировать: пример кода

  using (StreamReader r = new StreamReader(AppDomain.CurrentDomain.BaseDirectory + @"DataBase\net\net.jsonl"))
    {
        string json = r.ReadToEnd();
        List<string> items = JsonConvert.DeserializeObject<List<string>>(json);
        foreach (var str in items)
            Logger.Log(WebUtility.HtmlDecode(str));
    }

1 Ответ

0 голосов
/ 16 ноября 2018

Это довольно просто: просто используйте метод WebUtility.HtmlDecode:

var plainText = WebUtility.HtmlDecode("&#1508;&#1500;&#1505;&#1496;&#1497;&#1504;&#1497;&#1501;");

Если там есть обычные символы, они останутся одни:

var plainText = WebUtility.HtmlDecode("This is a Hebrew character: &#1508;");

Это приведет к:

Это еврейский символ::

...