Конвертировать & # char (w); в \ uxxxx C # - PullRequest
1 голос
/ 18 ноября 2009

Я работаю над корейским документом, и исходный код HTML содержит специальные символы, начинающиеся с & # char (w), например. 껰 Теперь я хотел бы преобразовать этот символ в репрезентацию Unicode.

Есть ли способ сделать это.

Ответы [ 2 ]

1 голос
/ 18 ноября 2009

HTML использует нотации & # и & # x для кодирования символов Юникода. Таким образом, ваш документ уже содержит символы в одной возможной нотации Unicode.

Если последовательность начинается с & # x, следующие символы являются шестнадцатеричным кодом символа. Если последовательность начинается с & #, следующие цифры являются десятичным кодом символа.

Преобразуйте этот код в шестнадцатеричный код, используя ToString ("x4"), как в ответе Конрада.

1 голос
/ 18 ноября 2009

Сначала получите код, преобразовав его в int. Затем используйте String.Format для получения строки кода Unicode:

string result = string.Format("\\u{0:x4}", (int) chr);

или

string result = "\\u" + ((int) chr).ToString("x4");
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...